数据科学 14 银行客户渠道使用偏好洞察案例(概念)

13.1 客户画像与标签体系

13.1.1 概念

什么是画像?
客户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象
出的一个标签化的用户模型。
构建用户画像的核心工作即是给用户贴“标签”,而标签是通过对
用户信息分析而来的高度精炼的特征标识。
为什么要做画像?
精准营销和个性化推荐。
用户统计和理解。
业务经营分析。
怎么做画像?
基本流程:数据收集、行为建模、构建画像。

13.2.2 客户细分

在这里插入图片描述

13.2 系统聚类

13.2.1 要点1:要预先处理变量

  • 收到的数据通常需要经过处理才能用于分析:
    • 缺失值
    • 异常值(极大或极小)
    • 分类变量需要转化为哑变量(0/1数值)
    • 分类变量类别过多
  • 不同的统计方法对数据有不同的要求:
    • 决策树允许缺失值和异常值
    • 聚类分析和回归模型则不支持缺失值

13.2.2 要点2:变量标准化

为什么要做标准化:
变量的量纲的不一样引起计算距离的偏差

比如我们用了两个维度: 收入和年龄
		收入的取值范围 [$10,000, $100,000]
		年龄的取值范围 [18, 100]

方法一:中心化 ------ std ⁡ ( x i p ) = x i p − x ˉ p S p \operatorname{std}\left(x_{i p}\right)=\frac{x_{i p}-\bar{x}_{p}}{S_{p}} std(xip)=Spxipxˉp
方法二:极差标准化 ------ x − min ⁡ ( x ) / max ⁡ ( x ) − min ⁡ ( x ) x-\min (x) / \max (x)-\min (x) xmin(x)/max(x)min(x)

13.2.3 要点3:不同维度的变量,相关性尽量低

13.3 K-means聚类

13.3.1 K-means聚类过程

  • 设定K值,确定聚类数(软件随机分配聚类中心所需的种子);
    • 计算每个记录到类中心的距离(欧式),并分成K类。
  • 然后把K类中心(均值),作为新的中心,重新计算距离;
  • 迭代到收敛标准停止(最小二乘准则)。

13.3.2 K-Means 聚类要点

要点1:预先处理变量的缺失值、异常值
要点2:变量标准化
要点3:不同维度的变量,相关性尽量低
要点4:如何决定合适的分群个数?

  • 主要推荐轮廓系数(Silhouette Coefficient),并结合以下注意事项:
    • 分群结果的稳定性
      重复多次分群,看结果是否稳定
    • 分群结果是否有好解释的商业意义

13.4 变量转换

变量转换有两种:

消除量纲但是不改变分布(归一化) :中心标准化、极差标准化;
同时消除量纲与改变分布:对数、百分位秩、 Tukey评分等。
图1 消除量纲但是不改变分布
图2 同时消除量纲与改变分布

百分位秩
变量从小到大排序,然后依次赋予序列号,最后用总的样本量除以序列号, 值域[0,100] 。

Tukey正态分布打分
先转化为百分位秩,然后转化为正态分布。

变量取自然对数
数学表达式: A = l n ( x ) A = ln(x) A=ln(x)


变量转换总结:

  • 非对称变量在聚类分析中选用百分位秩和Tukey正态分布打分比较多;
  • 回归分析中取对数比较多
    因为商业上的聚类模型关心的客户的排序情况,回归模型关心的是其具有经济学意义,对数表达的是百分比的变化。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

irober

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值