1. 赛题简介
该赛题立足于真实新闻浏览数据,根据用户历史浏览记录,预测他点击的下一篇文章。
2. 数据概况
一共30用户的真实浏览数据,包括近300万次点击和36万篇不同文章。20万用户的日志为训练集,5万测试集,5万验证集。
3. 评分方式
赛题要求给出5篇文章作为最后的结果。如果用户最后点击的文章就是第一篇文章,那么s(user,1)=1
,其他s(user,2-4)=0
,那么结果是1
。如果用户最后点击的文章是第二篇文章那么s(user,2)=1
,其他s(user,1)=0
和s(user,3-4)=0
,那么结果是1/2
,以此类推。如果用户最后点击的文章不在给出的结果中,那么得分为0
。
4. 赛题理解
从36万篇文章中预测最可能点击的5篇文章可以转化为给36万篇文章出现的可能性排序,然后选出概率最大的前5篇,所以变成点击率预测的问题。考虑使用监督学习分类模型解决。