推荐系统
Qinyang_Hu
这个作者很懒,什么都没留下…
展开
-
Task 05 排序模型 + 模型融合
通过召回的操作,我们已经进行了问题规模的缩减,对每个用户选择出了N篇文章作为了候选集,并基于召回的候选集构建了与用户历史相关的特征以及用户本身的属性特征、文章本身的属性特征,用户与文章之间的特征。下面就是使用机器学习模型来构造好的特征进行学习,然后对测试集进行预测,得到测试集中的每个候选集用户点击的概率,返回点击概率最大的topk个文章作为最终的结果。 排序阶段选择了三个比较有代表性的排序模型,它们分别是:1.LGB的排序模型。2.LGB的分类模型。3.深度学习的分类模型DIN。 得到了最终的排序模型原创 2020-12-06 22:15:29 · 253 阅读 · 1 评论 -
Task 04 特征工程
1. 制作特征和标签,转成监督学习问题我们先捋一下基于原始的给定数据,有哪些特征可以利用:\文章的自身特征: category_id表示这文章的类型,created_at_ts表示文章建立的时间,这个变量着眼于文章的时效性,words_count是文章的字数,一般字数太长我们不太喜欢点击,也不排除有人就喜欢读长文。文章的内容embedding特征,这个召回的时候用过,这里可以选择使用,也可以选择不用,也可以尝试其他类型的embedding特征,比如W2V等。用户的设备特征信息上面这些直接可以用原创 2020-12-03 22:11:46 · 139 阅读 · 0 评论 -
Task03 多路召回
所谓的“多路召回”策略,就是指采用不同的策略、特征或简单模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用,可以明显的看出,“多路召回策略”是在计算速度和召回率之间进行权衡的结果。其中,各种简单策略保证候选集的快速召回,从不同角度设计的策略保证召回率接近理想的状态,不至于损伤排序效果。导包import pandas as pdimport numpy as npfrom tqdm import tqdmfrom collections import defaultdictimp原创 2020-11-30 22:37:45 · 162 阅读 · 0 评论 -
Task02 数据分析
数据分析数据分析的价值主要在于熟悉了解整个数据集的基本情况包括每个文件里有哪些数据,具体的文件中的每个字段表示什么实际含义,以及数据集中特征之间的相关性,在推荐场景下主要是分析用户本身的基本属性,文章基本属性,以及用户和文章交互的一些分布,这些都有利于后面的召回策略的选择,以及特征工程。建议: 当特征工程和模型调参已经很难继续上分了,可以回来重新从新的角度去分析这些数据,或许可以找到上分的灵感。字段表user_id — 用户idclick_article_id原创 2020-11-27 22:09:15 · 168 阅读 · 0 评论 -
Task01: 赛题理解+Baseline
机器学习欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编原创 2020-11-25 20:29:35 · 277 阅读 · 0 评论 -
GBDT + LR
7.1 GBDT+LR 简介协同过滤和矩阵分解存在的裂时就是进利用了用户与物品相互行为信息进行推荐,忽视了用户自身特征,物品自身特征以及上下文信息等,导致生成的结果往往会比较片面。GBDT+LR模型是2014年由Facebook提出,该模型利用GBDT自动进行特征筛选和组合,进而生成新的离散特征向量,再把该特征向量做LR模型的输入,来产生最后的预测结果,该模型能够综合利用用户、物品和上下文多种不同的特征,生成较为全面的推荐结果,在CTR点击率预估场景下使用较为广泛。7.2 逻辑回归模型在推荐系统里面,原创 2020-10-30 23:33:36 · 149 阅读 · 0 评论 -
FM 模型
5.1 FM模型的引入5.1.1 逻辑回归模型及其缺点FM模型其实是一种思路,具体的应用较少。一般来说做推荐CTR预估时最简单的思路就是将线性组合(逻辑回归LR),传入sigmoid中得到一个概率值,本质上这就是一个线性模型,因为sigmoid是单调函数不会改变里面的线性模型的CTR预测顺序,因此逻辑回归模型效果会比较差。LR的缺点:是一个线性模型每个特征对最终输出结果独立,需要手动特征交叉,比较麻烦。5.1.2 二阶交叉项的考虑及改进由于LR模型的上述缺陷(主要是手动做特征交叉比较麻烦)原创 2020-10-29 13:33:39 · 508 阅读 · 0 评论 -
Wide & Deep 模型简介
6.1 点击率预估简介点击率预估是用来解决什么问题?点击率预估是对每次广告点击情况做出预测,可以输出点击或者不点击,也可以输出点击或者不点击的概率,后者有时候也称为pClick.点击率预估模型需要做什么?通过上述点击率预估的基本概念,我们会发现其实点击率预估问题就是一个二分类的问题,在机器学习中可以使用逻辑回归最为模型的输出,其输出就是一个概率值,我们可以将机器学习输出的这个概率值认为是某个shi用户点击某个广告的概率。点击率预估与推荐算法有什么不同?广告点击率预估是需要得到某个用户对某个广告原创 2020-10-29 11:47:50 · 496 阅读 · 0 评论 -
01 基于用户的协同过滤算法
协同推荐方法的主要思想是利用关于过去行为的信息或现有用户社区的意见来预测系统的当前用户最可能喜欢或感兴趣的项目。这些类型的系统如今在工业上被广泛使用,特别是作为在线零售网站中的工具,以根据特定客户的需求定制内容,从而促进额外的产品以增加销售额。多年来,古圣先贤们已经提出了各种算法和技术,并成功地对真实世界和人工测试数据进行了评估。纯协同方法以用户商品评级矩阵作为唯一输入,通常产生以下类型的输出:1.数字预测,表明当前用户喜欢或不喜欢某一商品的程度。2.包含n个推荐商品的列表。此top-N列表不应该包含当原创 2020-10-22 21:20:52 · 462 阅读 · 0 评论 -
推荐系统
推荐系统 – DW 组队学习基本概念介绍1.1.1 Collaborative recommendation这些系统的基本思想是:如果用户在过去分享了相同的物品,即如果他们浏览或购买了相同的书籍,那么他们在未来也会有相似的品味。基于此,如果用户A和用户B有着 *强烈重叠* 的购买历史,并且用户A最近购买了一本用户B至今没见过的书,基本原理就是把这本书也推荐给用户B。因为选择这种对于用户B也有希望会对这本书也有兴趣的操作涉及从一个很大的集合中过滤出最有可能的书籍,并且因为用户之间有着隐含地相互协原创 2020-10-19 23:04:28 · 166 阅读 · 0 评论