题目背景:
本次大赛提供了讯飞AI营销云的海量广告投放数据,参赛选手通过人工智能技术构建预测模型预估用户的广告点击概率,即给定广告点击相关的广告、媒体、用户、上下文内容等信息的条件下预测广告点击概率。官方赛事链接
任务
讯飞AI营销广告点击率预估,预测广告被点击的概率。
数据
*注 :报名参赛或加入队伍后,可获取数据下载权限。
提供下载的数据集包括两个部分:
初赛:
1. round1_iflyad_train.txt 训练集,每一行数据为一个样本,可分为5类数据,包含基础广告投放数据、广告素材信息、媒体信息、用户信息和上下文信息,共1001650条数据。其中‘click’字段为要预测的标签,其它34个字段为特征字段。 2. round1_iflyad_test_feature.txt 测试集,共40024条数据,与训练集文件相比,测试集文件无‘click’字段,其它字段同训练集。
复赛:
1. round2_iflyad_train.txt 训练集,每一行数据为一个样本,可分为5类数据,包含基础广告投放数据、广告素材信息、媒体信息、用户信息和上下文信息,共1998350条数据。其中‘click’字段为要预测的标签,其它34个字段为特征字段。 2.round2_iflyad_test_feature.txt 测试集,共80276条数据,与训练集文件相比,测试集文件无‘click’字段,其它字段同训练集。
出于数据安全保证的考虑,所有数据均为脱敏处理后的数据。数据集提供了若干天的样本,最后一天数据构成了测试集,其余日期的数据作为训练数据。
注意:此次比赛分为初赛和复赛两个阶段,两个阶段的区别是所提供样本的量级有所不同,其他的设置均相同。
基本数据
字段 | 解释 |
---|---|
instance_id | 样本id |
click | 是否点击 |
广告信息
字段 | 解释 |
---|---|
adid | 广告id |
advert_id | 广告主id |
orderid | 订单id |
advert_industry_inner | 广告主行业 |
advert_name | 广告主名称 |
campaign_id | 活动id |
creative_id | 创意id |
creative_type | 创意类型 |
creative_tp_dnf | 样式定向id |
creative_has_deeplink | 响应素材是否有deeplink(Boolean) |
creative_is_jump | 是否是落页跳转(Boolean) |
creative_is_download | 是否是落页下载(Boolean) |
creative_is_js | 是否是js素材(Boolean) |
creative_is_voicead | 是否是语音广告(Boolean) |
creative_width | 创意宽 |
creative_height | 创意高 |
媒体信息
字段 | 解释 |
---|---|
app_cate_id | app分类 |
f_channel | 一级频道 |
app_id | 媒体id |
inner_slot_id | 媒体广告位 |
app_paid | app是否付费 |
用户信息
字段 | 解释 |
---|---|
user_tags | 用户标签信息,以逗号分隔 |
上下文信息
字段 | 解释 |
---|---|
city | 城市 |
carrier | 运营商 |
time | 时间戳 |
province | 省份 |
nnt | 联网类型 |
devtype | 设备类型 |
os_name | 操作系统名称 |
osv | 操作系统版本 |
os | 操作系统 |
make | 品牌(例如:apple) |
model | 机型(例如:"iphone") |