广告特征离散化

本文探讨了广告算法中特征选择和离散化的重要性。在预估点击率(CTR)的过程中,特征如用户信息、广告特征和历史反馈特征是关键。特征的离散化能提升区分性,避免过拟合,并提高计算效率。文章介绍了等频离散化方法,通过创建不同权重的特征区间来处理连续特征,以适应广告点击率的长尾分布。此外,特征交叉和组合增强表示信息,确保模型能够更好地拟合非线性关系。最后,提到了特征过滤和修正的必要性,以及特征验证的方法。
摘要由CSDN通过智能技术生成

有一段时间没有写博客了

最近都在做一些和广告算法相关的工作,用的模型也是比较大众的lr,主要呃工作还是在特征提取的过程,下面纪录一些心得体会:


在预估ctr的过程中,理论上是应该有这么几类特征信息:
用户的信息(用户输入的query,包括用户的年龄,消费水平,历史操作行为)

广告的特征(商品item的属性,item的流行度,广告商的评级等等)

历史的反馈特征(利用历史记录中,已经产生的pv,click信息对应一些特征信息的抽取,利用历史真实的ctr数据进行预估)如每个广告的实时ctr,广告跟性别交叉的ctr


在海量的数据当中,首先能够保证的是训练数据的量是足够的,在特征的删选当中主要是需要考虑到特征对应的训练样本的均衡问题

因为在广告中全量宝贝中很大一部分都是长尾的,那么对于一些覆盖样本少的特征对应着样本是否能将特征的分训练出来就是一个问题

1 特征选取

在考虑一个因素是否能够作为特征,首先保证这个特征在数据中是有区分性的,比如query是连衣裙,篮球之类的时候,用户的性别就有很大的区分性。再比如用户的年龄,20岁,30岁在广告推荐中,不能说30数字大,那么他对应的ctr就一定会高,比如pv高对ctr会有影响,但是这样的影响不一定是有用的,pv高的不一定ctr就高,所以这是非线性的特征,所以找到 一些对应的特征的时候需要对特征做一些后续的事情(比如进行离散化处理)。

在确定了特征是可以考虑的,但是特征并不是越多越好,因为一旦特征太多,但是对应的训练样本不足,那么肯定会导致这个

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值