![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
推荐系统
csCaiRujia
这个作者很懒,什么都没留下…
展开
-
Task05 天池新闻推荐入门赛之【排序模型+模型融合】
排序模型通过召回的操作, 我们已经进行了问题规模的缩减, 对于每个用户, 选择出了N篇文章作为了候选集,并基于召回的候选集构建了与用户历史相关的特征,以及用户本身的属性特征,文章本省的属性特征,以及用户与文章之间的特征,下面就是使用机器学习模型来对构造好的特征进行学习,然后对测试集进行预测,得到测试集中的每个候选集用户点击的概率,返回点击概率最大的topk个文章,作为最终的结果。排序阶段选择了三个比较有代表性的排序模型,它们分别是:LGB的排序模型LGB的分类模型深度学习的分类模型DIN得到原创 2020-12-06 19:55:43 · 239 阅读 · 0 评论 -
Task04 天池新闻推荐入门赛之【特征工程】
我们先捋一下基于原始的给定数据, 有哪些特征可以直接利用:文章的自身特征, category_id表示这文章的类型, created_at_ts表示文章建立的时间, 这个关系着文章的时效性, words_count是文章的字数, 一般字数太长我们不太喜欢点击, 也不排除有人就喜欢读长文。文章的内容embedding特征, 这个召回的时候用过, 这里可以选择使用, 也可以选择不用, 也可以尝试其他类型的embedding特征, 比如W2V等用户的设备特征信息上面这些直接可以用的特征, 待做完特征工原创 2020-12-03 23:19:46 · 135 阅读 · 0 评论 -
Task03 天池新闻推荐入门赛之【多路召回】
召回层的作用推荐系统的两个重要组成部分就是召回阶段和排序阶段。其中召回阶段负责将海量的候选集缩小至几百到几千的规模;而排序阶段负责对缩小后的候选集进行精准排序。多路召回所谓的“多路召回”策略,就是指采用不同的策略、特征或简单模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用,可以明显的看出,“多路召回策略”是在“计算速度”和“召回率”之间进行权衡的结果。其中,各种简单策略保证候选集的快速召回,从不同角度设计的策略保证召回率接近理想的状态,不至于损伤排序效果。如下图是多路召回的一个示意原创 2020-11-30 21:57:18 · 208 阅读 · 0 评论 -
零基础入门推荐系统【数据分析】Task2
数据分析的价值主要在于熟悉了解整个数据集的基本情况包括每个文件里有哪些数据,具体的文件中的每个字段表示什么实际含义,以及数据集中特征之间的相关性,在推荐场景下主要就是分析用户本身的基本属性,文章基本属性,以及用户和文章交互的一些分布,这些都有利于后面的召回策略的选择,以及特征工程。数据预处理对用户的点击时间进行排序还有计算用户的点击次数。数据浏览train_click_log.csv文件数据中每个字段的含义user_id: 用户的唯一标识click_article_id: 用户点击的文章唯一标原创 2020-11-27 23:00:50 · 122 阅读 · 0 评论 -
天池新闻推荐入门赛之【赛题理解+Baseline】Task01
赛题简介这个比赛是新闻推荐场景下的用户行为预测挑战赛,以新闻APP中的新闻推荐为背景,目的是要求我们根据用户历史浏览点击新闻文章的数据信息来预测用户未来的点击行为,即用户的最后一次点击的新闻文章。数据概况赛题以预测用户未来点击新闻文章为任务,数据集报名后可见并可下载,该数据来自某新闻APP平台的用户交互数据,包括30万用户,近300万次点击,共36万多篇不同的新闻文章,同时每篇新闻文章有对应的embedding向量表示。为了保证比赛的公平性,将会从中抽取20万用户的点击日志数据作为训练集,5万用户的点原创 2020-11-25 22:51:23 · 169 阅读 · 0 评论