推荐系统实战——新闻推荐baseline

最新推荐文章于 2023-08-02 20:41:39 发布

码上学习笔记

最新推荐文章于 2023-08-02 20:41:39 发布

阅读量840

点赞数

分类专栏：推荐系统实战

本文链接：https://blog.csdn.net/qq_36279562/article/details/110085227

版权

新闻推荐协同过滤点击率预测监督学习多类别分类

关键词由CSDN通过智能技术生成

推荐系统实战专栏收录该内容

5 篇文章 2 订阅

订阅专栏

Baseline（itemcf_base）

前置部分

赛题传送门

https://tianchi.aliyun.com/competition/entrance/531842/introduction?spm=5176.12281973.1005.1.3dd52448IarE5N

赛题简介

场景：新闻推荐场景

任务：要求我们根据用户历史浏览点击新闻文章的数据信息预测用户未来的点击行为，即用户的最后一次点击的新闻文章。

数据概况

数据规模：30万users,300万次点击，36万多不同的新闻文章（每篇文章用embedding向量表示）

训练集：20万用户的点击日志数据

测试集A:5万用户的点击日志数据

测试集B:5万用户的点击日志数据

训练集是用来训练模型的，测试集A是用来调整和优化模型参数的，测试集B用来线上对模型进行评分的。

数据字段表

简单地说一下目前对字段的理解，

点击时间戳：因为使用的是用户历史数据训练来完成预测任务，所以我们可以从两方面进行考虑。
- 第一，日期越靠近“今天”的越能反映到用户最新的兴趣情况。应该可以用lstm或者attention机制进行加权。
- 第二，停留在某篇文章的事件越长，大概率表明用户对该类型的新闻比较感兴趣，感觉这里可以构建一个文章阅读时间特征。
点击环境：不太明确字段的意思，暂定认为是手机网络还是wifi.
城市/地区：可以构造城市x地区的特征，或者直接以地区作为特征，看看某个用户是否会对某个地区的时事新闻进行关注。

结果提交

提交前请确保预测结果的格式与sample_submit.csv中的格式一致，以及提交文件后缀名为csv。其格式如下：

user_id,article_1,article_2,article_3,article_4,article_5

其中user_id为用户id, article_1,article_2,article_3,article_4,article_5为预测用户点击新闻文章Top5的article_id`依概率从高到低排序，例如：

评价方式理解

理解评价方式，我们需要结合着最后的提交文件来看，根据sample.submit.csv，我们最后提交的格式是针对每个用户，我们都会给出五篇文章的推荐结果，按照点击概率从前往后排序。而真实的每个用户最后一次点击的文章只会有一篇的真实答案，所以我们就看我们推荐的这五篇里面是否有命中真实答案的。比如对于user1来说，我们的提交会是：

user1, article1, article2, article3, article4, article5.

评价指标的公式如下：

假如article1就是真实的用户点击文章，也就是article1命中，则s(user1,1)=1, s(user1,2-4)都是0，如果article2是用户点击的文章，则s(user,2)=1/2,s(user,1,3,4,5)都是0。也就是score(user)=命中第几条的倒数。如果都没中，则score(user1)=0。这个是合理的，因为我们希望的就是命中的结果尽量靠前，而此时分数正好比较高。