- 统计分析与数据挖掘的区别
统计分析:基础之一是概率论,分析时需要对数据分布做假设(数据挖掘可以自动寻找变量间的关系),在应用时表现为函数关系式(数据挖掘有时是黑盒),
数据挖掘:擅长处理大数据,一般都会借助挖掘工具,是统计分析的延伸与发展
- 完整的数据挖掘流程
需求提出、参与讨论(需求背景、业务情况、可行性)、确定分析计划、数据预处理、模型、同步初步结论、迭代优化、输出落地建议、上线评估实际效果
- 数据预处理的方法
样本构建正确反映业务需求
数据抽样前后分布要一致
缺失值处理方法:直接删掉用户、删掉变量、补均值/中位数、用模型补值、置0
异常值处理方法:直接删掉用户、取95分位数、补值
数据变换:
产生衍生变量:一般是比例、均值、转化率等,需要熟悉业务
改善不对称分布的转换:加log、平方根、倒数、指数,转换后成正态分布,但这种变换解释性较差
分箱:用于降低数据复杂性,提升预测能力
标准化
特征筛选:
优点:提高模型稳定性、预测能力、计算速度
具体方法:最好采用多个方法一起筛选,以免误删
剔除与业务无关的变量
用线性相关指标进行初步筛选
卡方检验(类别变量)
IV值、WOE值:IV值衡量特征的区分能力,WOE值用来调整分箱的阈值
模型筛选
共线性:通过相关系数、主成分分析、聚类发现
- 模型优化的思路
业务思路、建模技术、建模技巧
- 模型评价指标体系
精确率、召回率、ROC曲线面积(横轴假正率,纵轴真正率)
KS值(高概率区间中正样本占比越高越好)、Lift值(模型预测概率/样本中的随机概率)
响应率曲线:用户各概率区间中,正样本占比
捕获率:用户各概率区间中,正样本/全部正样本比例
- 用户特征分析
用途:寻找目标用户,寻找运营的抓手(用户主动行为),用户群体细分的依据,新品开发的线索
思路:
RFM:最近一次购买间隔天数、购买频次、购买金额,重要程度依次递减
聚类:核心特征聚类,辅助特征分析
决策树规则
模型重要特征
- 做运营效果分析的目的
衡量运营工作的效果与效率
运营技巧优胜劣汰
- 假设检验
对运营数据假设检验,可以排除运营效果是由随机因素引起
- 路径分析的算法
LA:链条分析
基于序列的关联分析
遍历