特征工程之特征的好坏

一. 问题
特征的好坏衡量有很多的方法,如:
1. 单特征AUC
2. 信息增益,信息增益率,gini index
3. 相关系数 (label连续值)
但是,有些特征是低召回高精准的,即决策树中的某1子树集合很小很纯,另外1子树集合较大不纯。如类似于@svenzhou同学举得例子:
优惠券标签
1– 覆盖率30%, ctr 66.7% (2/3)
0– 覆盖率70%, ctr 28.6% (2/7)
金融理财标签
1– 覆盖率70%, ctr 57.1% (4/7)
0– 覆盖率30%, ctr 0% (0/3)

二. 单特征AUC
1. 优惠券标签的单特征roc曲线如下
这里写图片描述
计算得到,auc=0.667 (16.0/24)
2. 金融理财的单特征roc曲线如下
这里写图片描述
计算得到,auc=0.75 (18/24)
这样看金融理财是比优惠券标签要好的。

三. 定量投放
假如广告主买2个c,只考虑用单个特征的话:
1. 优惠券标签选择为1的投放,ctr=66.7%
2. 金融理财选择为1的投放,ctr=57.1%
这时,优惠券是比金融理财要好的。
加入广告主买3个c的话:
1. 优惠券选择为1的投放+选择一半0的投放,ctr=3/(3+3.5)=46.1%
2. 金融理财选择1的投放,ctr=57.1%
这时,选择金融理财是好的。

三. AUC分析
广告主买了2个c,使用金融理财的标签,在roc上的表现如下图
这里写图片描述
广告主买了2个c,3个c和分别使用两种标签的roc表现如下图
这里写图片描述
点H的fpr比点O的fpr低,所以买2个c优惠券的比金融理财的标签好;
点P的fpr比点Q的fpr低,所以买3个c金融理财的比优惠券的标签好。

四. 综合分析
两条roc曲线交叉的点,即是分界点。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值