前言
RTB似乎没有什么公开的数据集或环境,有一些相关问题,好多论文都不开源,比如阿里的,他们大多都是基于淘宝的数据、或是他们自己的仿真系统做实验。当然可以理解,但是也希望有一些开源项目,特别是RL做RTB的,CTR预测的倒是有DeepCTR这种。我看到有一些相关工作使用ipinyou的数据集,这个数据集是ipinyou在2013年的全球RTB算法比赛中使用的,包括广告拍卖、竞价、曝光、点击和最终转化的记录。张老师还给了标准化的工具。时过境迁,品友互动好像改名深演智能了,但好像还没新的benchmark,有的话欢迎告诉我。
当用户访问一个广告支持的站点时,每个广告放置都会触发一个拍卖,竞价请求通过广告交易发给广告主的购买系统,即需求方平台(DSP)。一旦收到竞价请求,DSP 将在其所有符合条件的广告活动中举行内部拍卖后计算出价作为响应。拍卖将在每个中介(广告网络、广告交易平台等)以及最终在发布商的系统中进行。最后,获胜者的广告将与网站的常规内容一起展示给访问者。众所周知,长时间的页面加载会大大降低用户的满意度,因此,通常要求 DSP 在很短的时间范围内(例如 100 毫秒)返回出价。
The iPinYou RTB Dataset
Data Format
iPinYou 数据集中有四种不同类型的日志:出价、曝光、点击和转化。日志一行一个。
通常,每条记录包含三种信息: (i) 拍卖和广告特征(除 3、20 和 21 之外的所有列)。这些特征被发送到出价引擎以做出出价响应。(ii) 拍卖中标价格(第 21 列),即竞争对手的最高出价。如果出价引擎响应的出价高于拍卖中标价,则 DSP 将赢得此次拍卖并获得广告展示。(iii) 用户对广告展示的反馈(点击和转化)(第 3 列)。如果 DSP 赢得拍卖,则可以检查用户对此广告展示的反馈以更新 DSP 表现。
所有与货币相关的数字(例如,出价、支付价和底价)均使用人民币货币和千分之单位,对应于普遍采用的每千人成本 (CPM) 定价模型。然而,在作者的分析中,计算出的数字(例如,成本、平均每千次展示费用和有效每次点击成本)没有乘以 1000。
然后是对每一列进行详细的解释:
(c01) 出价 ID 作为所有事件日志的唯一标识符,可用于将出价、展示次数、点击次数和转化次数结合在一起
(c02) 列使用 yyyyMMddHHmmssSSS 的格式
(c03) 可能的值包括:1(展示)、2(点击)和 3(转化)
(c04) 品友设置的内部用户ID
(c05) 该栏描述了用户的设备、操作系统和浏览器
(c10) 广告位的托管网页的域,这些值被hash了
(c11) 广告位托管网页的 URL,这些值被hash了
(c12) 当 DSP 不能直接使用 URL(例如被广告交易平台屏蔽)时,将使用此列。这些值由广告交易平台提供。对于一个记录,URL 或匿名 URL ID 是有意义的
(c16) 该列描述了广告位是在首屏 (FirstView) 还是不在首屏 (SecondView 到 TenthView),还是未知 (Na)
(c17) 可能的值包括 Fixed(固定大小和位置)、Pop(弹出窗口)、Background、Float和Na(未知)
(c18) 广告位的底价(或保留价)。任何低于底价的出价都无法赢得拍卖。该列采用linear scale归一化。
(c20) 品友为本次投标请求的出价
(c21) 竞争对手的最高出价,也称为市场价格和拍卖中标价格。如果出价高于拍卖中标价格,则此记录将出现在展示日志中
(c24) iPinYou 专有受众数据库中的用户标签(片段)。此数据集中仅发布了一部分用户标签
Basic Statistics
第一季度没有广告主ID,广告主的多样性使得数据集更有趣,他们有不同的用户反应行为。
Win Ratio是使用ipinyou的默认出价策略在拍卖中的胜率,转化率与点击数相关。原始数据中一次曝光可能有多次点击,然而在分析中作者去重了,专注于事件本身(用户是否点击、转化或无)。从表中我们可以看出:
- 除了广告主2997,其他的CTR都低于0.1%,这通常是实际桌面展示广告的平均CTR。2997的高CTR体现了移动环境的不同,由于fat finger(乌龙指),点击更有可能发生
- 尽管他们有相似的CPM,但是eCPC(每次点击的期望花费)很不同,可能由于目标规则设置(目标用户的人口信息、地点和时间)和每个特定广告主的市场
- 一些广告主没有