有一段时间没有写博客了
最近都在做一些和广告算法相关的工作,用的模型也是比较大众的lr,主要呃工作还是在特征提取的过程,下面纪录一些心得体会:
在预估ctr的过程中,理论上是应该有这么几类特征信息:
用户的信息(用户输入的query,包括用户的年龄,消费水平,历史操作行为)
广告的特征(商品item的属性,item的流行度,广告商的评级等等)
历史的反馈特征(利用历史记录中,已经产生的pv,click信息对应一些特征信息的抽取,利用历史真实的ctr数据进行预估)如每个广告的实时ctr,广告跟性别交叉的ctr
在海量的数据当中,首先能够保证的是训练数据的量是足够的,在特征的删选当中主要是需要考虑到特征对应的训练样本的均衡问题
因为在广告中全量宝贝中很大一部分都是长尾的,那么对于一些覆盖样本少的特征对应着样本是否能将特征的分训练出来就是一个问题
1 特征选取
在考虑一个因素是否能够作为特征,首先保证这个特征在数据中是有区分性的,比如query是连衣裙,篮球之类的时候,用户的性别就有很大的区分性。再比如用户的年龄,20岁,30岁在广告推荐中,不能说30数字大,那么他对应的ctr就一定会高,比如pv高对ctr会有影响,但是这样的影响不一定是有用的,pv高的不一定ctr就高,所以这是非线性的特征,所以找到 一些对应的特征的时候需要对特征做一些后续的事情(比如进行离散化处理)。
在确定了特征是可以考虑的,但是特征并不是越多越好,因为一旦特征太多,但是对应的训练样本不足,那么肯定会导致这个