1、介绍
https://tianchi.aliyun.com/competition/entrance/531842/information
赛题以预测用户未来点击新闻文章为任务,该数据来自某新闻APP平台的用户交互数据,
- 包括30万用户,近300万次点击,共36万多篇不同的新闻文章,同时每篇新闻文章有对应的embedding向量表示。
- 从中抽取20万用户的点击日志数据作为训练集,5万用户的点击日志数据作为测试集A,5万用户的点击日志数据作为测试集B。
数据集
train_click_log.csv
:训练集用户点击日志testA_click_log.csv
:测试集用户点击日志articles.csv
:新闻文章信息数据表articles_emb.csv
:新闻文章embedding向量表示sample_submit.csv
:提交样例文件
Field | Description |
---|---|
user_id | 用户id |
click_article_id | 点击文章id |
click_timestamp | 点击时间戳 |
click_environment | 点击环境 |
click_deviceGroup | 点击设备组 |
click_os | 点击操作系统 |
click_country | 点击城市 |
click_region | 点击地区 |
click_referrer_type | 点击来源类型 |
article_id | 文章id,与click_article_id相对应 |
category_id | 文章类型id |
created_at_ts | 文章创建时间戳 |
words_count | 文章字数 |
emb_1,emb_2,…,emb_249 | 文章embedding向量表示 |
2、
task01:Baseline
http://datawhale.club/t/topic/196
协同过滤:http://datawhale.club/t/topic/41
内容勘误:http://datawhale.club/t/topic/302
task02:数据分析
http://datawhale.club/t/topic/197