![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
实战训练数据挖掘
light-124
这个作者很懒,什么都没留下…
展开
-
推荐系统新闻推荐-排序模型+模型融合
排序模型通过召回的操作, 我们已经进行了问题规模的缩减, 对于每个用户, 选择出了N篇文章作为了候选集,并基于召回的候选集构建了与用户历史相关的特征,以及用户本身的属性特征,文章本省的属性特征,以及用户与文章之间的特征,下面就是使用机器学习模型来对构造好的特征进行学习,然后对测试集进行预测,得到测试集中的每个候选集用户点击的概率,返回点击概率最大的topk个文章,作为最终的结果。排序阶段选择了三个比较有代表性的排序模型,它们分别是:LGB的排序模型 LGB的分类模型 深度学习的分类模型DIN原创 2020-12-06 19:35:48 · 699 阅读 · 3 评论 -
推荐系统新闻推荐-特征工程(四)
制作特征和标签, 转成监督学习问题我们先捋一下基于原始的给定数据, 有哪些特征可以直接利用:文章的自身特征, category_id表示这文章的类型, created_at_ts表示文章建立的时间, 这个关系着文章的时效性, words_count是文章的字数, 一般字数太长我们不太喜欢点击, 也不排除有人就喜欢读长文。 文章的内容embedding特征, 这个召回的时候用过, 这里可以选择使用, 也可以选择不用, 也可以尝试其他类型的embedding特征, 比如W2V等 用户的设备特征信息原创 2020-12-03 19:24:15 · 437 阅读 · 0 评论 -
推荐系统新闻推荐-多路召回(三)
多路召回所谓的“多路召回”策略,就是指采用不同的策略、特征或简单模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用,可以明显的看出,“多路召回策略”是在“计算速度”和“召回率”之间进行权衡的结果。其中,各种简单策略保证候选集的快速召回,从不同角度设计的策略保证召回率接近理想的状态,不至于损伤排序效果。如下图是多路召回的一个示意图,在多路召回中,每个策略之间毫不相关,所以一般可以写并发多线程同时进行,这样可以更加高效。上图只是一个多路召回的例子,也就是说可以使用多种不同的策略来获原创 2020-11-30 20:32:52 · 767 阅读 · 0 评论