二维特征分类的基础_[CTR预测] 针对广告展示冷启动问题的图像特征学习

61486adb87fb9a4b2e099f4deb656614.png

最近在了解如何将图像特征利用到CTR预测中,广告图片设计的好坏可以影响广告展示效果。然后大致浏览了几篇文章,在此做个记录。


  • 标题:Image Feature Learning for Cold Start Problem in Display Advertising (IJCAI 15)

d14e700354cd690eedb83e81777bd207.png

摘要

过去的点击率预测(CTR)算法严重依赖历史信息,对于新广告的效果较差,这种现象即为冷启动问题。

传统的手工提取特征方法,如multimedia、SIFT,依赖于任务,缺乏灵活性及启发性。

本文提出一种新的特征学习结构,直接从图像和用户反馈中学习图像特征,并在470亿数据上进行实验,表现出相较于手工方法的优越性。

引言

图像广告具有直观、易于理解的优点。

准确的CTR预测可增加收入,改善用户体验。以往的预测算法依赖于历史信息,如历史点击率、广告id、广告类别等。

  • 成熟稳定的广告:点击率变化不大,影响小
  • 没有足够历史信息的新广告:不适用

传统的手工设计的特征不专门针对CTR,大多为底层特征,缺乏灵活性,而且不同任务关键特征不同,严重依赖人类启发。

另外由于隐私原因,往往不能使用个人信息用于CTR预测,所以本文没有使用这些敏感信息。

本文贡献:

  • 提出了一种有监督的特征提取方法,解决了冷启动问题。
  • 提出了新的特征学习结构,不依赖于手工特征或人类启发,具有优越性。
  • 通过相关分析和可视化深入了解模型。

2. 相关工作

使用上下文信息和点击反馈数据改进CTR预测。

  • LR、决策树
  • 使用上下文信息、语义信息等,不适用图像广告
  • 手工特征
  • CNN,通常针对分类任务

3. 点击预测问题的形式化

构建特征提取模型提取图像特征,然后将CTR预测视为一个分类问题,使用逻辑回归(LR)作为预测模型。

表示第
个样本,其中
为特征信息,
为标签(是否点击)。其中
为用户端特征集,
为上下文特征集,
为广告端特征集。

考虑到用户隐私问题,本文主要关注广告端特征

,而不使用用户信息,限制
,
  • 训练集
  • 测试集

预测目标:估计点击概率

优化目标(最小化):

表示前面提到的
,其中
表示第j张广告图像,
表示特征提取模型。(感觉这里定义略有问题)

可以写成:

所以总结我们的目标就是寻找最佳的特征提取模型

,然后输入到LR中进行预测。

4. 特征提取结构

de7a9a7949557cf47ba95da867479996.png
特征提取部分网络结构

4.1 任务分析与架构设计

人工制作的广告图像结构简单,背景噪声少,而且输出为二分类,因此所需要的变量相对较少。

4.2 可视化元素位置建模

相对位置影响点击率,因此本文使用更大的特征图来改善位置因素对广告质量的影响。

4.3 单机上处理大型数据集

相同位置的广告对应的图像聚合成统一的实例样本,用一个二维标签进行表示,不妨记作

,例如(10,2)。

表示没有点击的图像样本总数,
表示点击过的图像样本总数。

4.4 减少过拟合

  • 数据增强
  • Dropout
  • 局部响应归一化(LRN)

4.5 训练细节

4.6 效率和性能间的权衡

5. 实验

5.1 实验设置

  • 数据集
  • baseline
  • 实验步骤

5.2 仅在图像特征上的比较

5.3 图像特征和基础特征结合

5.4 区分的图像特征:广告类别

5.5 可视化区分区域

5.6 网络结构选择

6. 结论

本文针对CTR预测中的冷启动的问题,提出了有监督图像特征提取方法。新的特征提取结构可以直接学习图像特征,该方法不依赖启发式,具有灵活性。同时,在470亿的数据上的实验表明,本文的方法明显由于其他以往表现为SOTA的方法。


最后,不要光收藏不点赞嘛,点个赞再走吧,写文章不易,多多鼓励~

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值