学习笔记（2):Python数据分析与挖掘-一个完整的数据分析项目到底是什么样的

最新推荐文章于 2023-08-02 17:27:25 发布

fylgzs

最新推荐文章于 2023-08-02 17:27:25 发布

阅读量140

点赞数

文章标签：数据处理数据管理 RFM模型线性回归案例其他

立即学习:https://edu.csdn.net/course/play/6861/326736?utm_source=blogtoedu

分析现状：

根据流失的定义，查询流失用户的回购情况；
流失用户的合格订单就是贡献额；
简单预测以下贡献额与营销成本，即可得到ROl；(投资回报率)

建模预测：

基于已有的营销数据，构造流失用户激活模型即可；

SEMMA步骤解析：

Sample(搜集数据)
1. 基于需求，有针对性的搜集可以解决问题的数据。
2. 常用的搜集手段有：
  1. 问卷调查
  2. 数据库查询
  3. 实验室数据
  4. 仪器设备的记录
  5. 例如：影响收入的因素有那些？如何预测他的收入范围？
Explore(数据探索)
1. 通过数据探索，可以对数据的进一步了解。
2. 常用的探索方向有：
  1. 离散变量的分布比例
  2. 连续变量的分布形态
  3. 数据的异常和缺失
  4. 特征选择
  5. 例如：各变量的缺失状态？统计描述？数据分布形态？
Modify(数据修正)
1. 数据修正，便于下一步分析和建模。常用的修正方法有：
  1. 数据类型的转换
  2. 数据一致性的处理
  3. 异常值和缺失值的处理
  4. 数据形态转换
  5. 例如：各变量中的缺失数据该如何处理？离散变量如何数值化？
Model(数据建模)
1. 数据建模，侧重于未知时间的预测。
2. 常用的模型有：
  1. 有监督的预测模型(如回归、决策树、KNN等)
  2. 有监督的判别性模型(如logistics、贝叶斯、集成算法等)
  3. 无监督模型(如Kmeans聚类、层次聚类、密度聚类等)
  4. 半监督模型(如关联规则等)
  5. 例如：如何基于调查数据，预测用户的收入水平？
Assess(模型评估)
1. 模型评估，检验模型的稳定性以及适用性。
2. 常用的检验方法有：
  1. RMSE
  2. 混淆矩阵
  3. ROC曲线
  4. KS曲线
  5. 例如：检验KNN模型对数据的拟合效果？