【数据建模 类别型变量编码】特殊变量的处理

对类别型变量编码

1. one-hot编码
2. 浓度编码

这里需要详细讲下浓度编码:
某类别型特征下,每一类数据对应的流失率或者是违约率(也可以是非流失率或者非违约率)作为这类数据的编码。
例如性别这个特征:男性人数为x1,男性中流失人数x11,女性人数x2,女性中流失人数x22。
那么我们以x11/x1作为男性编码;x22/x2作为女性编码。

WOE编码

对日期/时间型变量

时间是否为一个节日,是否在一个时间段(类别型);或者计算距离某个日子变成间隔型;或者某个时间段内发生了多少次变成组合型等等;这个需要结合具体应用场景。使其变成离散型。

可以基于某个基准日期,转化为天数
以观察点为基准,将所有开户日期转为距离观察点的天数(month-on-book)

外部数据包含了客户在电信运营商的详情
包括:

通话时间与次数
话费详情
特定的呼叫行为
其他信息

可以衍生的特征
月平均通话时间的变化=过去三个月月平均通话时间 − 过去六个月月平均通话时间
月平均通话次数的变化=过去三个月月平均通话次数 − 过去六个月月平均通话次数
月平均缴纳话费的变化=过去三个月月平均缴纳话费 − 过去六个月月平均缴纳话费

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

东华果汁哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值