一文梳理2019年腾讯广告算法大赛冠军方案

‍‍

点击上方“Datawhale”,选择“星标”公众号

第一时间获取价值内容

640?

作为从本次比赛共157队伍中脱颖而出的冠军方案,评分达到87.9683,从数据清洗、模型构建、目标优化等有非常多值得学习的地方。比赛团队也挺有意思,分别来自哈工大、微软研究院和京东,算是学术界和工业界的强强联合,在多个数据竞赛中都有不错的名次。

评委:“这是最接近腾讯真实业务的方案。”


本文将从源码着手,深度解读该冠军方案是如何一步步从rough data清洗、特征工程到运用多种模型融合实现最佳效果的。作为一名数据竞赛经验薄浅的算法工程师,期望尽可能的将里面涉及到的知识、技巧、模型、算法作一个细致的总结,所以行文可能比较基础难免冗长。

注:冠军方案源码可以从Datawhale今天发的文章《2019腾讯广告算法大赛-冠军之路》中获取,也可以在Datawhale 公众号后台回复关键词 源码 获得。

640?wx_fmt=png

背景介绍

640?wx_fmt=png


作为国内领先的大数据营销平台,全新升级的腾讯广告,以更强大的全景连接、更全链的数字智慧、更友好的人本体验等三大核心能力,构建品牌与用户的智慧连接,助力广告主高效实现商业增长。而复杂的社交场景,多样的广告形态,以及庞大的人群数据,给实现这一目标带来了不小的挑战。为攻克这些挑战,腾讯广告也在不断地寻找更为优秀的数据挖掘方式和机器学习算法。


本次算法大赛[1]的题目是源于腾讯广告业务中一个面向广告主服务的真实业务产品 ——广告曝光预估。广告曝光预估的目的是在广告主创建新广告和修改广告设置时,为广告主提供未来的广告曝光效果参考。通过这个预估参考,广告主能避免盲目的优化尝试,有效缩短广告的优化周期,降低试错成本, 使广告效果尽快达到广告主的预期范围。比赛中使用的数据经过脱敏处理,通过本次大赛,我们旨在挑选出更为优秀的曝光预估算法以及遴选出杰出的社交广告算法达人。


640?wx_fmt=png

比赛赛题

640?wx_fmt=png


  1. 数据
    主要是三个日志文件,分别为:

  • 历史日志数据:广告请求时间、用户 id、广告位 id、竞价广告信息等
  • 用户信息数据:用户 id、年龄、性别、地域、行为兴趣等
  • 广告设置:广告操作信息、广告静态信息

目标
本次竞赛提供历史 n 天的曝光广告的数据(特定流量上采样),包括对应每次曝光的流量特征(用户属性和广告位等时空信息)以及曝光广告的设置和竞争力分数;测试集是新的一批广告设置(有完全新的广告id,也有老的广告id修改了设置),要求预估这批广告的日曝光。

评价指标
评价指标由两部分组成,准确性指标和出价单调性指标。

  • 准确性指标SMAPE衡量了预测的准确度:

640?wx_fmt=png

  • 单调性指标MonoScore衡量了报价与曝光量的相关性,这是对应“由于竞价机制的特性,在广告其他特征不变的前提下,随着出价的提升,预估曝光值也 单调提升才符合业务直觉。”其中:

640?wx_fmt=png

  • 最终得分是将两个指标加权相加:

640?wx_fmt=png


640?wx_fmt=png

数据初探

640?wx_fmt=png


这次比赛的数据非常原始,日志信息的raw data,因此原始数据是脏数据。那么,建模第一步必须是数据清洗,异常检测,重复缺失值等。第二步,建模,而这里面的数据并没有给定标签,需要统计曝光量。这里面大有学问,出价不同的广告不能视为同一个广告;24小时(0-24点)间隔内未修改的广告视为同一广告,如果有修改,那么修改时间点后的广告视为新的广告。详细的数据集解读可以参考CSDN上的技术博客[2][3],对所有数据集的详细介绍见下图:

640?wx_fmt=png

双击查看大图


640?wx_fmt=png

冠军方案

640?wx_fmt=png


作者在github [4] 上公开了源码,该库包含了比赛详细的介绍文件guide.pdf和数据集下载链接(百度网盘),再次感谢作者。下面是亲自跑
  • 0
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值