SEMMA步骤解析
1.Sample(搜集数据)
基于需求,有针对性的搜集可以解决问题的数据。
- 问卷调查
- 数据库查询
- 实验室实验
例如:影响收入的因素有哪些?如何预测收入范围等。
2.Explore(数据探索)
通过数据探索,以求对数据的进一步了解。常用的探索方向有:
- 离散变量的分布比例
- 连续变量的分布形态
- 数据的异常和缺失
例如:各变量的缺失状态?统计描述?数据分布形态?
3.Modify(数据修正)
数据修正,便于下一步的分析和建模。常用的修正方法有:
- 数据类型的转换
- 数据的一致性处理
- 异常值和缺失值的处理
- 数据形态的转换
例如:各变量中的缺失数据该如何处理?离散变量如何数值化?
4.Model(数据建模)
数据建模,着重于未知事件的预测。常用的模型有:
- 有监督的预测性模型(如回归,决策树,KNN等)
- 有监督的判别性模型(如Logistic,贝叶斯,集成算法等)
- 无监督模型(如kmeans聚类,层次聚类,密度聚类等)
- 半监督模型(如关联规则等)
例如:如何基于调查数据,预测用户的收入水平?
5.Assess(模型评估)
模型评估,检验模型的稳定性以及实用性。常用的检测方法有:
- RMSE
- 混淆矩阵
- ROC曲线
- KS曲线
例如:检验KNN模型对数据的拟合效果?