数据科学 13 精准营销的两阶段预测模型（概念）

最新推荐文章于 2024-12-10 09:44:22 发布

irober

最新推荐文章于 2024-12-10 09:44:22 发布

阅读量1.2k

点赞数 1

分类专栏： # 数据科学概念篇 python数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/irober/article/details/104728880

版权

python数据挖掘同时被 2 个专栏收录

34 篇文章

订阅专栏

数据科学概念篇

23 篇文章

订阅专栏

本文探讨了数据科学中精准营销的两阶段预测模型，详细介绍了数据准备步骤，包括问题类型发现、变量筛选方法，以及分类和连续变量的压缩策略。重点讲解了分类变量的重编码、基于目标变量的转换-WOE，连续变量的主成分分析和变量聚类思路。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据科学 13 精准营销的两阶段预测模型（概念）

13.1 总体思路

13.1.1 数据准备步骤

粗筛，变量好几千：用pearson，spearman
变量100以内时：用IV方法
变量30-50时：逐步法

1、发现数据问题类型

脏数据或数据不正确
- 比如 ‘0’ 代表真实的0，还是代表缺失；Age = -2003
数据不一致
- 比如收入单位是万元，利润单位是元，或者一个单位是美元，一个是人民币
数据重复
- 这个问题在前面已经解决
缺失值
离群值

2、不要将变量筛选全放到建模的时候

13.2.2 解决方案

1、简单方案

2、建模标准流程（适用于工业场景）

13.2 分类变量的压缩

13.2.1 水平变量编码转换

1、分类变量重编码（概化）

A 分类变量的哑变量编码法

最后一个水平的哑变量不放入模型中，默认作为对照组。（学院派）

B 当水平数较多时

汽车制造商（vehicle_make）这个变量有155个水平，要生成154个哑变量。（占用大量自由度，其最致命的问题在下面）

C Quasi-Complete问题（似不完整数据问题）
（）

由于某个水平中， Y缺乏变异而导致无法计算。
由于这份数据中的许多汽车制造商只有一条记录，因此无法直接将这个变量直接纳入分类模型中。（解决方法，如下）

D 合并不同水平
- 方法1：将频次少的水平简单合为一类，看上去简单，但是精度降低不大，问题是水平数依然不少。（将频次少的合为other）
- 方法2：根据每个水平Y=1的占比，将值接近的划分为一类。本步骤手工处理比较麻烦，将来学了决策树之后，可以使用该技术进行处理。
- 合并后保留10-20个水平合适

压缩之后的分类变量还是会生成若干个哑变量。从道理上讲，在后续建模中，由一个分类变量生成的哑变量要么同时在模型中，要么都不在模型中。但是在模型选择变量时不能满足这个要求，因此较好的方法是将分类变量转换为连续变量。

2、基于目标变量的转换-WOE（基于证据的权重调整）

 **不要使用原始变量进行WOE转换** ，**要使用重分组后变量进行WOE转换**

经过woe转换，变量变成连续变量。（第二张图的最后一列 $log(P(Y_i)/P(Y_i=0))$ 即为转换后的变量）
说明：
基于目标变量的转换是一种思路，实际工作中的实现方法很多，目前本节讲的是思路最简单，但是操作很麻烦的做法，实际工作中并不经常使用。

13.3 连续变量的压缩

13.3.1 主成分分析的思路

主成分分析，是考察多个变量间相关性一种多元统计方法，研究如何通过少数几个主成分来揭示多个变量间的内部结构，即从原始变量中导出少数几个主成分，使它们尽可能多地保留原始变量的信息，且彼此间互不相关。
在这里插入图片描述

13.3.2 变量聚类思路

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

irober 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。