数据挖掘与数据化运营实战

hhhh106

于 2023-02-04 17:58:56 发布

阅读量309

点赞数

分类专栏：读书笔记文章标签：大数据用户运营 Powered by 金山文档

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_25174485/article/details/128880515

版权

读书笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

- 统计分析与数据挖掘的区别

统计分析：基础之一是概率论，分析时需要对数据分布做假设（数据挖掘可以自动寻找变量间的关系），在应用时表现为函数关系式（数据挖掘有时是黑盒），

数据挖掘：擅长处理大数据，一般都会借助挖掘工具，是统计分析的延伸与发展

- 完整的数据挖掘流程

需求提出、参与讨论（需求背景、业务情况、可行性）、确定分析计划、数据预处理、模型、同步初步结论、迭代优化、输出落地建议、上线评估实际效果

- 数据预处理的方法

样本构建正确反映业务需求

数据抽样前后分布要一致

缺失值处理方法：直接删掉用户、删掉变量、补均值/中位数、用模型补值、置0

异常值处理方法：直接删掉用户、取95分位数、补值

数据变换：

产生衍生变量：一般是比例、均值、转化率等，需要熟悉业务

改善不对称分布的转换：加log、平方根、倒数、指数，转换后成正态分布，但这种变换解释性较差

分箱：用于降低数据复杂性，提升预测能力

标准化

特征筛选：

优点：提高模型稳定性、预测能力、计算速度

具体方法：最好采用多个方法一起筛选，以免误删

剔除与业务无关的变量

用线性相关指标进行初步筛选

卡方检验（类别变量）

IV值、WOE值：IV值衡量特征的区分能力，WOE值用来调整分箱的阈值

模型筛选

共线性：通过相关系数、主成分分析、聚类发现

- 模型优化的思路

业务思路、建模技术、建模技巧

- 模型评价指标体系

精确率、召回率、ROC曲线面积（横轴假正率，纵轴真正率）

KS值（高概率区间中正样本占比越高越好）、Lift值（模型预测概率/样本中的随机概率）

响应率曲线:用户各概率区间中，正样本占比

捕获率：用户各概率区间中，正样本/全部正样本比例

- 用户特征分析

用途：寻找目标用户，寻找运营的抓手（用户主动行为），用户群体细分的依据，新品开发的线索

思路：

RFM：最近一次购买间隔天数、购买频次、购买金额，重要程度依次递减

聚类：核心特征聚类，辅助特征分析

决策树规则

模型重要特征

- 做运营效果分析的目的

衡量运营工作的效果与效率

运营技巧优胜劣汰

- 假设检验

对运营数据假设检验，可以排除运营效果是由随机因素引起

- 路径分析的算法

LA：链条分析

基于序列的关联分析

遍历

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘与数据化运营实战

数据挖掘实战
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。