学习笔记(2):Python数据分析与挖掘-一个完整的数据分析项目到底是什么样的

立即学习:https://edu.csdn.net/course/play/6861/326736?utm_source=blogtoedu

分析现状:

  1. 根据流失的定义,查询流失用户的回购情况;
  2. 流失用户的合格订单就是贡献额;
  3. 简单预测以下贡献额与营销成本,即可得到ROl;(投资回报率)

建模预测:

  1. 基于已有的营销数据,构造流失用户激活模型即可;

SEMMA步骤解析:

  1. Sample(搜集数据)
    1. 基于需求,有针对性的搜集可以解决问题的数据。
    2. 常用的搜集手段有:
      1. 问卷调查
      2. 数据库查询
      3. 实验室数据
      4. 仪器设备的记录
      5. 例如:影响收入的因素有那些?如何预测他的收入范围?
  2. Explore(数据探索)
    1. 通过数据探索,可以对数据的进一步了解。
    2. 常用的探索方向有:
      1. 离散变量的分布比例
      2. 连续变量的分布形态
      3. 数据的异常和缺失
      4. 特征选择
      5. 例如:各变量的缺失状态?统计描述?数据分布形态?
  3. Modify(数据修正)
    1. 数据修正,便于下一步分析和建模。常用的修正方法有:
      1. 数据类型的转换
      2. 数据一致性的处理
      3. 异常值和缺失值的处理
      4. 数据形态转换
      5. 例如:各变量中的缺失数据该如何处理?离散变量如何数值化?
  4. Model(数据建模)
    1. 数据建模,侧重于未知时间的预测。
    2. 常用的模型有:
      1. 有监督的预测模型(如回归、决策树、KNN等)
      2. 有监督的判别性模型(如logistics、贝叶斯、集成算法等)
      3. 无监督模型(如Kmeans聚类、层次聚类、密度聚类等)
      4. 半监督模型(如关联规则等)
      5. 例如:如何基于调查数据,预测用户的收入水平?
  5. Assess(模型评估)
    1. 模型评估,检验模型的稳定性以及适用性。
    2. 常用的检验方法有:
      1. RMSE
      2. 混淆矩阵
      3. ROC曲线
      4. KS曲线
      5. 例如:检验KNN模型对数据的拟合效果?

 

​​

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值