【读书笔记】互联网广告综述之点击率特征工程

互联网广告综述之点击率特征工程

http://blog.csdn.net/mytestmy/article/details/19088827

读书笔记:

1、对特征的处理,无论是离散的(如性别,年龄),还是连续的(如点击率ctr),都采用虚拟化因子的思路,先把特征属性因子化,然后扩充为新的维度。

2、缺失值的处理,也可以用虚拟化因子的方式来处理,如性别属性,采用3个因子:男、女、不详。

3、虚拟化因子后,立马变成很大的稀疏矩阵,而且,维数太多时,容易造成过拟合问题。解决办法:首先特征选择上,做相关分析,一些相关的特征,保留一个即可,别的都拿掉;其次,虚拟化时,可以先不划分成很多的因子,如年龄,不要每个岁数都作为一个因子,可以按年龄段划分为几个因子即可,如少年、青年、中年、老年等。

4、CTR的预估是个反馈,从日志可以拿到实际结果,是否可以做成闭环PID控制之类的,来自动调整算法。

5、ctr的结果反馈可以用卡方检验来处理,卡方检验是适用于计数资料差异显著性的检验方法,是一种通过比较实际次数与理论次数的偏差来检验二者是否一致的统计方法,其数学意义是实际次数与理论次数偏差平方比理论次数。卡方分布曲线随自由度的变化而变化。随着自由度的增大,曲线逐渐趋于对称;当自由度大于30时,曲线近似正态分布。

6、互联网广告的点击率符合一个长尾分布,叫做对数正态分布。互联网上从歌曲和软件的下载、网页的点击到网上店铺的销售,都呈现长尾分布的特征。长尾分布也与对流行事物进行统计排名的“排行榜”文化有关。网上音乐资料库容量巨大,下载方式非常便捷。把曲目按照下载量排序,可近似地得到一条递减曲线。在曲线的头部,热门曲目被大量下载。接下来,随着流行程度的降低(对应为序号的增大),曲线徒然下降。但有趣的是,在尾部曲线并没有迅速坠落到零,而是极其缓慢地贴近于横轴,粗看上去几乎与横轴平行延伸(这说明很不热门的曲日仍然保持着一定的下载率)。这种特殊的排序(即排名)与下载量之间的对应关系就是长尾分布。

7、ctr预测模型如果产生过拟合,可以利用正则,特别是L1正则,经过L1正则训练的得到的权重向量,其中某些特征如果对点击率预估预测性不强,权重会变成0,不影响预估。正则化是奥卡姆剃刀原理在模型选择上的应用,即 能很好的拟合已知数据又简单的模型才是好的模型。如果仅考虑拟合已知数据,很容易出现过拟合现象,虽然模型对已知数据拟合得很好,但对未知数据的预测能力很差,模型复杂度往往比真模型高。所以在考虑拟合已知数据的同时考虑模型的复杂度,在经验风险函数上加入正则化项。比如模型参数向量的范数,模型越复杂,正则化值就越大。正则化思想旨在最小化经验风险与正则化项的和。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值