- 推荐的部分,也会分为训练集和测试集,在数据中,我们将每次曝光给用户的展示结果列表称为一个Group(每个Group都有唯一的pvId)。
- 训练集和测试集中每个Group都有正样本(曝光并点击)和负样本(曝光但未点击)。
- 训练集中每条样本包含pvId,用户id,点击序列(序列中的每次点击都包含文章id和浏览时间),
- 用户特征(包含但不限于操作系统、浏览器、设备、运营商、省份、城市等),
- 待预测文章id和当前时间戳,以及用户的行为(1为有点击,0为未点击)。测试集中每条样本包含测试样本id,用户id,点击序列(序列中的每次点击都包含文章id和浏览时间),
- 用户特征(包含但不限于操作系统、浏览器、设备、运营商、省份、城市等),待预测文章id和当前时间戳。
同时测试集和训练集中涉及到的所有文本主题内容及情感分析对象,我们都会通过附件文件给出具体内容。选手需要结合第一部分的模型,自行抽取出文本中的情感极性作为推荐特征,运用到点击预测中来。不允许使用除情感以外的其他文本特征,不允许不使用情感特征。pvId指的是单次曝光给用户的推荐列表页的唯一id。最后选手将测试集中的测试样本id及对应预测结果上传即可。
Sohu2022算法赛-推荐赛道
最新推荐文章于 2022-11-07 17:00:18 发布