天池新闻推荐入门推荐赛（baseline代码学习）

最新推荐文章于 2022-05-28 20:39:02 发布

leo2vec

最新推荐文章于 2022-05-28 20:39:02 发布

阅读量1k

点赞数

文章标签：推荐算法 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43274397/article/details/123833330

版权

datawhale的新闻推荐赛事

1.数据和任务

新闻数据来自某新闻APP平台的用户交互数据，包括30万用户，近300万次点击，共36万多篇不同的新闻文章，同时每篇新闻文章有对应的embedding向量表示。

训练集：20万用户的点击日志数据

测试集A：5万用户的点击日志数据

测试集B：5万用户的点击日志数据

官方给出的数据

分别看看各个csv的前十行是什么样子

文件1是关于文章的信息，有四列，分别代表文章id，种类id，，文章创建时间和单词个数。

文件2是各个文章的embedding,每篇文章的向量是250维度。

文件3是提交示例，对于每一个用户按照可能点击率概率大小依次分布

文件4、5分别是测试集和训练集，列分别代表用户id，点击文章id，点击的时间，点击环境，点击设备组，点击操作系统，点击所在国家，点击地区，点击人类型。

评价推荐算法的目标函数：

假如article1就是真实的用户点击文章，也就是article1命中，则s(user1,1)=1, s(user1,2-4)都是0，如果article2是用户点击的文章，则s(user,2)=1/2,s(user,1,3,4,5)都是0。也就是score(user)=命中第几条的倒数。如果都没中，则score(user1)=0。

即越早命中得分越高。

2.代码思路

1.调出所需要的包（略）

2.节约内存函数

传入df，目的是压缩df的内存，返回一个压缩前的大小，压缩后的大小，以及压缩所需要的时间。

3.读取采样或者全量数据

第一个函数是随机采样出来一小部分，并且去除重复数据，用作测试。

第二个函数比较重要，读取点击数据，这里分成线上和线下，如果是为了获取线上提交结果应该将测试集中的点击数据合并到总的数据中

接下来说明是线下测试，读取文件夹的数据。

4.获取用户-文章-点击时间字典

根据点击时间获取用户的点击文章序列 {user1: [(item1, time1), (item2, time2)..]...}的格式

5.获取点击最多的topk个文章

获取热门的文章

6.itemcf的物品相似度计算

利用文章的embedding计算文章的相似度，并考虑时间因素，计算出相似性矩阵并保存到本地。

接着将前文的全量数据集输入这个函数里，进行文章之间的相似度计算。

7.召回（baseline里用到的是最简单的基于内容的推荐，可以换成其他的召回＋精排策略替代）

召回一定数量的文章，不够数量的话用点击数量比较多的热门文章补齐。

对于具体的用户，从已经得知到的用户点击文章的序列字典，文章相似性矩阵，要召回的文章数量，热门的文章（用作补全）得到一个用户可能点击概率最大的K个项目的一个列表。

之后便是设置一系列的参数，从召回的十篇文章中选取五篇进行生成提交的文件csv。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
天池新闻推荐入门推荐赛（baseline代码学习）

datawhale的新闻推荐赛事
复制链接

扫一扫

leo2vec CSDN认证博客专家 CSDN认证企业博客

码龄6年

10: 原创

108万+: 周排名

209万+: 总排名

3106: 访问

: 等级

100: 积分

1: 粉丝

0: 获赞

2: 评论

3: 收藏

私信

关注

热门文章

分类专栏

机器学习笔记心得 1篇

最新评论

数据结构Day6 哈希表：242.有效的字母异位词 349. 两个数组的交集 202. 快乐数 1. 两数之和
CSDN-Ada助手: 恭喜您写了第8篇博客，内容丰富多彩，涵盖了哈希表的应用。我觉得下一步可以考虑深入探讨哈希表的实现原理，或者介绍一些常见的哈希函数。谢谢您的分享，期待更多精彩的博客。 CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply8 看奖励名单。
数据结构Day3 203.移除链表元素 707.设计链表 ● 206.反转链表
CSDN-Ada助手: 恭喜你写了第7篇博客，标题看起来很有实用性。移除链表元素和设计链表是常见的链表操作，而反转链表则是常用的技巧之一。感谢你分享这些知识，希望你能继续坚持写作。下一步的创作建议，可以考虑分享一些高级数据结构或者算法的实现，这能帮助读者更深入地理解这些概念。再次感谢你的分享！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply7 看奖励名单。
数据结构Day2 977有序数组的平方 209 长度最小的子数组 59螺旋矩阵（2⃣️）
CSDN-Ada助手: 恭喜您写下了第6篇博客，标题看起来非常有趣和有用！我非常期待阅读您的文章，并且感谢您对数据结构的深入研究和分享。如果可能的话，我建议您在接下来的文章中加入更多的代码示例和解释，这样读者们更容易理解并且能够更好地应用到实际中。再次感谢您的分享，期待您的下一篇文章！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply6 看奖励名单。
数据结构Day1 704. 二分查找，27. 移除元素
CSDN-Ada助手: 恭喜您写出了第5篇博客，标题内容也很有意义。二分查找和移除元素是数据结构中非常基础的操作，您的分享对于初学者来说非常有帮助。接下来，我建议您可以结合实际场景，给出更多的案例或者代码实现，让读者更好地理解和应用这些知识点。期待您更多的精彩分享！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

leo2vec 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。