天池新闻推荐入门赛
cymx66688
人生苦短,我用Python
展开
-
天池新闻推荐入门赛——排序模型+模型融合
排序模型通过召回的操作, 我们已经进行了问题规模的缩减, 对于每个用户, 选择出了N篇文章作为了候选集,并基于召回的候选集构建了与用户历史相关的特征,以及用户本身的属性特征,文章本省的属性特征,以及用户与文章之间的特征,下面就是使用机器学习模型来对构造好的特征进行学习,然后对测试集进行预测,得到测试集中的每个候选集用户点击的概率,返回点击概率最大的topk个文章,作为最终的结果。排序阶段选择了三个比较有代表性的排序模型,它们分别是:LGB的排序模型LGB的分类模型深度学习的分类模型DI原创 2020-12-06 23:31:48 · 125 阅读 · 0 评论 -
天池新闻推荐入门赛——多路召回
上一篇文章见 天池新闻推荐入门赛——数据分析前言需要导入包faiss,先讲解下faiss安装过程。1.安装mklconda install mkl2.下载faiss-gpu首先查看一下自己的cuda版本和python版本,这个一定要弄对。然后去 https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/linux-64/ 下载这个压缩包,我的环境是python3.6.7,cuda是10.0,下载的是faiss-gpu-1.5.0原创 2020-12-03 10:56:29 · 144 阅读 · 0 评论 -
天池新闻推荐入门赛——赛题理解+baseline
此博文为<天池新闻推荐入门赛>的连续系列,本章节主要包含两大块,分别是赛题理解和baseline。一、赛题理解1.赛题简介比赛地址见零基础入门推荐系统 - 新闻推荐比赛内容赛题以预测用户未来点击新闻文章为任务,数据集报名后可见并可下载,该数据来自某新闻APP平台的用户交互数据,包括30万用户,近300万次点击,共36万多篇不同的新闻文章,同时每篇新闻文章有对应的embedding向量表示。为了保证比赛的公平性,将会从中抽取20万用户的点击日志数据作为训练集,5万用户的点击日志数据作原创 2020-11-25 19:06:04 · 314 阅读 · 0 评论