SEMMA步骤解析

最新推荐文章于 2024-12-27 09:23:45 发布

龍龍哥

最新推荐文章于 2024-12-27 09:23:45 发布

阅读量1.3k

点赞数

分类专栏： Python数据分析文章标签：数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/baldicoot_/article/details/124389989

版权

Python数据分析专栏收录该内容

4 篇文章

订阅专栏

SEMMA步骤解析

1.Sample(搜集数据)
基于需求，有针对性的搜集可以解决问题的数据。

问卷调查
数据库查询
实验室实验
例如：影响收入的因素有哪些？如何预测收入范围等。

2.Explore(数据探索)
通过数据探索，以求对数据的进一步了解。常用的探索方向有：

离散变量的分布比例
连续变量的分布形态
数据的异常和缺失
例如：各变量的缺失状态？统计描述？数据分布形态？

3.Modify(数据修正)
数据修正，便于下一步的分析和建模。常用的修正方法有：

数据类型的转换
数据的一致性处理
异常值和缺失值的处理
数据形态的转换
例如：各变量中的缺失数据该如何处理？离散变量如何数值化？

4.Model(数据建模)
数据建模，着重于未知事件的预测。常用的模型有：

有监督的预测性模型(如回归，决策树，KNN等)
有监督的判别性模型(如Logistic，贝叶斯，集成算法等)
无监督模型(如kmeans聚类，层次聚类，密度聚类等)
半监督模型(如关联规则等)
例如：如何基于调查数据，预测用户的收入水平？

5.Assess(模型评估)
模型评估，检验模型的稳定性以及实用性。常用的检测方法有：

RMSE
混淆矩阵
ROC曲线
KS曲线
例如：检验KNN模型对数据的拟合效果？

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。