数据挖掘与数据化运营实战

    • 统计分析与数据挖掘的区别

统计分析:基础之一是概率论,分析时需要对数据分布做假设(数据挖掘可以自动寻找变量间的关系),在应用时表现为函数关系式(数据挖掘有时是黑盒),

数据挖掘:擅长处理大数据,一般都会借助挖掘工具,是统计分析的延伸与发展

    • 完整的数据挖掘流程

需求提出、参与讨论(需求背景、业务情况、可行性)、确定分析计划、数据预处理、模型、同步初步结论、迭代优化、输出落地建议、上线评估实际效果

    • 数据预处理的方法

  1. 样本构建正确反映业务需求

  1. 数据抽样前后分布要一致

  1. 缺失值处理方法:直接删掉用户、删掉变量、补均值/中位数、用模型补值、置0

  1. 异常值处理方法:直接删掉用户、取95分位数、补值

  1. 数据变换:

  • 产生衍生变量:一般是比例、均值、转化率等,需要熟悉业务

  • 改善不对称分布的转换:加log、平方根、倒数、指数,转换后成正态分布,但这种变换解释性较差

  • 分箱:用于降低数据复杂性,提升预测能力

  • 标准化

  • 特征筛选:

优点:提高模型稳定性、预测能力、计算速度

具体方法:最好采用多个方法一起筛选,以免误删

剔除与业务无关的变量

用线性相关指标进行初步筛选

卡方检验(类别变量)

IV值、WOE值:IV值衡量特征的区分能力,WOE值用来调整分箱的阈值

模型筛选

  • 共线性:通过相关系数、主成分分析、聚类发现

    • 模型优化的思路

业务思路、建模技术、建模技巧

    • 模型评价指标体系

精确率、召回率、ROC曲线面积(横轴假正率,纵轴真正率)

KS值(高概率区间中正样本占比越高越好)、Lift值(模型预测概率/样本中的随机概率)

响应率曲线:用户各概率区间中,正样本占比

捕获率:用户各概率区间中,正样本/全部正样本比例

    • 用户特征分析

用途:寻找目标用户,寻找运营的抓手(用户主动行为),用户群体细分的依据,新品开发的线索

思路:

RFM:最近一次购买间隔天数、购买频次、购买金额,重要程度依次递减

聚类:核心特征聚类,辅助特征分析

决策树规则

模型重要特征

    • 做运营效果分析的目的

  • 衡量运营工作的效果与效率

  • 运营技巧优胜劣汰

    • 假设检验

对运营数据假设检验,可以排除运营效果是由随机因素引起

    • 路径分析的算法

LA:链条分析

基于序列的关联分析

遍历

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值