SEMMA步骤解析

SEMMA步骤解析

1.Sample(搜集数据)
基于需求,有针对性的搜集可以解决问题的数据。

  • 问卷调查
  • 数据库查询
  • 实验室实验
    例如:影响收入的因素有哪些?如何预测收入范围等。

2.Explore(数据探索)
通过数据探索,以求对数据的进一步了解。常用的探索方向有:

  • 离散变量的分布比例
  • 连续变量的分布形态
  • 数据的异常和缺失
    例如:各变量的缺失状态?统计描述?数据分布形态?

3.Modify(数据修正)
数据修正,便于下一步的分析和建模。常用的修正方法有:

  • 数据类型的转换
  • 数据的一致性处理
  • 异常值和缺失值的处理
  • 数据形态的转换
    例如:各变量中的缺失数据该如何处理?离散变量如何数值化?

4.Model(数据建模)
数据建模,着重于未知事件的预测。常用的模型有:

  • 有监督的预测性模型(如回归,决策树,KNN等)
  • 有监督的判别性模型(如Logistic,贝叶斯,集成算法等)
  • 无监督模型(如kmeans聚类,层次聚类,密度聚类等)
  • 半监督模型(如关联规则等)
    例如:如何基于调查数据,预测用户的收入水平?

5.Assess(模型评估)
模型评估,检验模型的稳定性以及实用性。常用的检测方法有:

  • RMSE
  • 混淆矩阵
  • ROC曲线
  • KS曲线
    例如:检验KNN模型对数据的拟合效果?
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值