数据科学 14 银行客户渠道使用偏好洞察案例(概念)
13.1 客户画像与标签体系
13.1.1 概念
什么是画像?
客户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象
出的一个标签化的用户模型。
构建用户画像的核心工作即是给用户贴“标签”,而标签是通过对
用户信息分析而来的高度精炼的特征标识。
为什么要做画像?
精准营销和个性化推荐。
用户统计和理解。
业务经营分析。
怎么做画像?
基本流程:数据收集、行为建模、构建画像。
13.2.2 客户细分
13.2 系统聚类
13.2.1 要点1:要预先处理变量
- 收到的数据通常需要经过处理才能用于分析:
- 缺失值
- 异常值(极大或极小)
- 分类变量需要转化为哑变量(0/1数值)
- 分类变量类别过多
- 不同的统计方法对数据有不同的要求:
- 决策树允许缺失值和异常值
- 聚类分析和回归模型则不支持缺失值
13.2.2 要点2:变量标准化
为什么要做标准化:
变量的量纲的不一样引起计算距离的偏差
比如我们用了两个维度: 收入和年龄
收入的取值范围 [$10,000, $100,000]
年龄的取值范围 [18, 100]
方法一:中心化 ------
std
(
x
i
p
)
=
x
i
p
−
x
ˉ
p
S
p
\operatorname{std}\left(x_{i p}\right)=\frac{x_{i p}-\bar{x}_{p}}{S_{p}}
std(xip)=Spxip−xˉp
方法二:极差标准化 ------
x
−
min
(
x
)
/
max
(
x
)
−
min
(
x
)
x-\min (x) / \max (x)-\min (x)
x−min(x)/max(x)−min(x)
13.2.3 要点3:不同维度的变量,相关性尽量低
13.3 K-means聚类
13.3.1 K-means聚类过程
- 设定K值,确定聚类数(软件随机分配聚类中心所需的种子);
- 计算每个记录到类中心的距离(欧式),并分成K类。
- 然后把K类中心(均值),作为新的中心,重新计算距离;
- 迭代到收敛标准停止(最小二乘准则)。
13.3.2 K-Means 聚类要点
要点1:预先处理变量的缺失值、异常值
要点2:变量标准化
要点3:不同维度的变量,相关性尽量低
要点4:如何决定合适的分群个数?
- 主要推荐轮廓系数(Silhouette Coefficient),并结合以下注意事项:
- 分群结果的稳定性
重复多次分群,看结果是否稳定 - 分群结果是否有好解释的商业意义
- 分群结果的稳定性
13.4 变量转换
变量转换有两种:
消除量纲但是不改变分布(归一化) :中心标准化、极差标准化;
同时消除量纲与改变分布:对数、百分位秩、 Tukey评分等。
|
|
百分位秩
变量从小到大排序,然后依次赋予序列号,最后用总的样本量除以序列号, 值域[0,100] 。
Tukey正态分布打分
先转化为百分位秩,然后转化为正态分布。
变量取自然对数
数学表达式:
A
=
l
n
(
x
)
A = ln(x)
A=ln(x)
变量转换总结:
- 非对称变量在聚类分析中选用百分位秩和Tukey正态分布打分比较多;
- 在回归分析中取对数比较多。
因为商业上的聚类模型关心的客户的排序情况,回归模型关心的是其具有经济学意义,对数表达的是百分比的变化。