数据挖掘基本流程

一、数据预处理

  1. 获取数据
  2. 查看数据基本情况info()/head()/describe()
  3. 缺失值处理(删除/填充/承认缺失值存在)、异常值处理(删除/保留/处理到一定范围内)
  4. 类别型数据处理、时间型数据处理、转换变量类型、对数据进行分箱/分桶/离散化
  5. 分类建模,分析样本是否不均衡(过抽样,欠抽样/正负样本惩罚权重/组合集成处理)
  6. 对变量进行分析

二、特征工程

  1. 选择合适的特征进行数据标准化—树模型不需要进行标准化/归一化
  2. 对特征之间进行相关性分析/特征选择(卡方检验/模型筛选/移除低方差的特征/单变量特征选择/递归特征消除/基于L1的特征选择)/特征衍生,对特征与目标进行相关性分析选取重要特征(逻辑回归要求变量之间线性无关)

三、模型训练

  1. 选择对应特征作为模型特征值和目标值(无监督学习无目标值)
  2. 建立模型(是否有超参数需进行交叉验证/网格搜索),进行训练,得到结果

三、模型评估与优化

  1. 根据模型选择对应的评估方法
    监督学习:
    回归模型:均方根误差、相对平方误差、平均绝对误差、相对绝对误差、决定系数等
    分类模型:准确率、精确率、召回率、F1-score、AUC指标等
    无监督学习:
    聚类模型:误差平方和、轮廓系数等

  2. 对模型进行调优(查看测试集与训练集评估结果是否过拟合)

  3. 如果是需要上线的模型,2-6个月内的数据不会用来训练模型,会用来做跨时间验证判断模型是否可上线

  4. 考虑是否需要模型融合

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值