[2015.5.21] Real-Time Bidding Benchmarking with iPinYou Dataset 笔记

前言

RTB似乎没有什么公开的数据集或环境,有一些相关问题,好多论文都不开源,比如阿里的,他们大多都是基于淘宝的数据、或是他们自己的仿真系统做实验。当然可以理解,但是也希望有一些开源项目,特别是RL做RTB的,CTR预测的倒是有DeepCTR这种。我看到有一些相关工作使用ipinyou数据集,这个数据集是ipinyou在2013年的全球RTB算法比赛中使用的,包括广告拍卖、竞价、曝光、点击和最终转化的记录。张老师还给了标准化的工具。时过境迁,品友互动好像改名深演智能了,但好像还没新的benchmark,有的话欢迎告诉我。
在这里插入图片描述
当用户访问一个广告支持的站点时,每个广告放置都会触发一个拍卖,竞价请求通过广告交易发给广告主的购买系统,即需求方平台(DSP)。一旦收到竞价请求,DSP 将在其所有符合条件的广告活动中举行内部拍卖后计算出价作为响应。拍卖将在每个中介(广告网络、广告交易平台等)以及最终在发布商的系统中进行。最后,获胜者的广告将与网站的常规内容一起展示给访问者。众所周知,长时间的页面加载会大大降低用户的满意度,因此,通常要求 DSP 在很短的时间范围内(例如 100 毫秒)返回出价。

The iPinYou RTB Dataset

Data Format

iPinYou 数据集中有四种不同类型的日志:出价、曝光、点击和转化。日志一行一个。
在这里插入图片描述
通常,每条记录包含三种信息: (i) 拍卖和广告特征(除 3、20 和 21 之外的所有列)。这些特征被发送到出价引擎以做出出价响应。(ii) 拍卖中标价格(第 21 列),即竞争对手的最高出价。如果出价引擎响应的出价高于拍卖中标价,则 DSP 将赢得此次拍卖并获得广告展示。(iii) 用户对广告展示的反馈(点击和转化)(第 3 列)。如果 DSP 赢得拍卖,则可以检查用户对此广告展示的反馈以更新 DSP 表现。

所有与货币相关的数字(例如,出价、支付价和底价)均使用人民币货币和千分之单位,对应于普遍采用的每千人成本 (CPM) 定价模型。然而,在作者的分析中,计算出的数字(例如,成本、平均每千次展示费用和有效每次点击成本)没有乘以 1000。

然后是对每一列进行详细的解释:
(c01) 出价 ID 作为所有事件日志的唯一标识符,可用于将出价、展示次数、点击次数和转化次数结合在一起
(c02) 列使用 yyyyMMddHHmmssSSS 的格式
(c03) 可能的值包括:1(展示)、2(点击)和 3(转化)
(c04) 品友设置的内部用户ID
(c05) 该栏描述了用户的设备、操作系统和浏览器
(c10) 广告位的托管网页的域,这些值

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值