![61486adb87fb9a4b2e099f4deb656614.png](https://img-blog.csdnimg.cn/img_convert/61486adb87fb9a4b2e099f4deb656614.png)
最近在了解如何将图像特征利用到CTR预测中,广告图片设计的好坏可以影响广告展示效果。然后大致浏览了几篇文章,在此做个记录。
- 标题:Image Feature Learning for Cold Start Problem in Display Advertising (IJCAI 15)
![d14e700354cd690eedb83e81777bd207.png](https://img-blog.csdnimg.cn/img_convert/d14e700354cd690eedb83e81777bd207.png)
摘要
过去的点击率预测(CTR)算法严重依赖历史信息,对于新广告的效果较差,这种现象即为冷启动问题。
传统的手工提取特征方法,如multimedia、SIFT,依赖于任务,缺乏灵活性及启发性。
本文提出一种新的特征学习结构,直接从图像和用户反馈中学习图像特征,并在470亿数据上进行实验,表现出相较于手工方法的优越性。
引言
图像广告具有直观、易于理解的优点。
准确的CTR预测可增加收入,改善用户体验。以往的预测算法依赖于历史信息,如历史点击率、广告id、广告类别等。
- 成熟稳定的广告:点击率变化不大,影响小
- 没有足够历史信息的新广告:不适用
传统的手工设计的特征不专门针对CTR,大多为底层特征,缺乏灵活性,而且不同任务关键特征不同,严重依赖人类启发。
另外由于隐私原因,往往不能使用个人信息用于CTR预测,所以本文没有使用这些敏感信息。
本文贡献:
- 提出了一种有监督的特征提取方法,解决了冷启动问题。
- 提出了新的特征学习结构,不依赖于手工特征或人类启发,具有优越性。
- 通过相关分析和可视化深入了解模型。
2. 相关工作
使用上下文信息和点击反馈数据改进CTR预测。
- LR、决策树
- 使用上下文信息、语义信息等,不适用图像广告
- 手工特征
- CNN,通常针对分类任务
3. 点击预测问题的形式化
构建特征提取模型提取图像特征,然后将CTR预测视为一个分类问题,使用逻辑回归(LR)作为预测模型。
用
考虑到用户隐私问题,本文主要关注广告端特征
- 训练集
- 测试集
预测目标:估计点击概率
优化目标(最小化):
用
则
所以总结我们的目标就是寻找最佳的特征提取模型
4. 特征提取结构
![de7a9a7949557cf47ba95da867479996.png](https://img-blog.csdnimg.cn/img_convert/de7a9a7949557cf47ba95da867479996.png)
4.1 任务分析与架构设计
人工制作的广告图像结构简单,背景噪声少,而且输出为二分类,因此所需要的变量相对较少。
4.2 可视化元素位置建模
相对位置影响点击率,因此本文使用更大的特征图来改善位置因素对广告质量的影响。
4.3 单机上处理大型数据集
相同位置的广告对应的图像聚合成统一的实例样本,用一个二维标签进行表示,不妨记作
4.4 减少过拟合
- 数据增强
- Dropout
- 局部响应归一化(LRN)
4.5 训练细节
4.6 效率和性能间的权衡
5. 实验
5.1 实验设置
- 数据集
- baseline
- 实验步骤
5.2 仅在图像特征上的比较
5.3 图像特征和基础特征结合
5.4 区分的图像特征:广告类别
5.5 可视化区分区域
5.6 网络结构选择
6. 结论
本文针对CTR预测中的冷启动的问题,提出了有监督图像特征提取方法。新的特征提取结构可以直接学习图像特征,该方法不依赖启发式,具有灵活性。同时,在470亿的数据上的实验表明,本文的方法明显由于其他以往表现为SOTA的方法。
最后,不要光收藏不点赞嘛,点个赞再走吧,写文章不易,多多鼓励~