深度学习推荐系统
文章平均质量分 88
深度学习推荐系统
bugmaker.
这个作者很懒,什么都没留下…
展开
-
注意力机制在推荐模型中的应用——DIN
DIN 模型的应用场景是阿里最典型的电商广告推荐, DIN 模型本质上是一个点击率预估模型。原创 2023-04-05 16:43:27 · 411 阅读 · 0 评论 -
GraphSAGE论文精读
我们提出了一个通用的框架,称为GraphSAGE(样本和聚合),用于归纳节点嵌入。与基于矩阵分解的嵌入方法不同,我们利用节点特征(例如,文本属性、节点概要信息、节点度)来学习一个将不可见节点泛化的嵌入函数。通过在学习算法中引入节点特征,我们同时学习了每个节点的邻域的拓扑结构以及节点特征在邻域中的分布情况。虽然我们关注特征丰富的图(例如,具有文本属性的引文数据,具有功能/分子标记的生物数据),但我们的方法也可以利用所有图中出现的结构特征(例如,节点度)。因此,我们的算法也可以应用于没有节点特征的图。原创 2023-03-21 10:44:03 · 517 阅读 · 0 评论 -
GBDT+LR
仅利用了用户与物品相互行为信息进行推荐, 忽视了用户自身特征, 物品自身特征以及上下文信息等,导致生成的结果往往会比较片面。FFM特征交叉能力有限:虽然 FFM 模型采用引入特征域的方式增强了模型的特征交叉能力,只能做二阶的特征交叉,如果继续提高特征交叉的维度,会不可避免地产生组合爆炸和计算复杂度过高的问题。表达能力不强, 无法进行特征交叉, 特征筛选等一系列“高级“操作(这些工作都得人工来干, 这样就需要一定的经验, 否则会走一些弯路), 因此可能造成信息的损失。原创 2023-02-13 13:09:00 · 340 阅读 · 0 评论 -
LS-PLM
LS-PLM是阿里巴巴曾经的主流推荐模型 “大规模分段线性模型”(Large Scale Piece-wise Linear Model,以下 简称LS-PLM)。早在2012年,它就是阿里巴巴主流的推荐模型,并在深度学习模型提出之前长时间应用于阿里巴巴的各类广告场景。原创 2022-12-12 20:03:54 · 485 阅读 · 0 评论 -
协同过滤CF
UserCF的核心思想是人以群分,现在我们得到了用户的向量表示,那么计算用户i和用户j的相似度问题,就是计算用户向量i和用户向量y之间的相似度,两个向量之间常用的相似度计算方法有余弦相似度、皮尔逊相关系数、欧氏距离等。以上介绍的协同过滤算法基于用户相似度进行推荐,因此也被称为基于用户的协同过滤(UserCF ),它符合人们直觉上的“兴趣相似的朋友喜欢的物品, 也喜欢”的思想,但从技术的角度,它也存在一些缺点,主要包括以下两点。对相似物品集合中的物品,利用相似度分值进行排序,生成最终的推荐列表。原创 2022-12-12 18:04:33 · 424 阅读 · 0 评论 -
Spark、Filnk简单介绍
作为业界主流的大数据处理利器,Spark 的地位毋庸置疑。所以,今天我先带你了解一下 Spark 的特点,再一起来看怎么用 Spark 处理推荐系统的特征。Spark 是一个分布式计算平台。所谓分布式,指的是计算节点之间不共享内存,需要通过网络通信的方式交换数据。Spark 最典型的应用方式就是建立在大量廉价的计算节点上,这些节点可以是廉价主机,也可以是虚拟的 Docker 容器。理解了 Spark 的基本概念,我们来看看它的架构。原创 2022-11-12 16:11:05 · 936 阅读 · 0 评论 -
推荐系统的数据流
动辄TB乃至PB级別的训练数据,让推荐系统的数据流必须和大数据处理与存储的基础设施紧密结合,才能完成推荐系统的高效训练和在线预估。大数据平台的发展经历了从批处理到流计算再到全面融合进化的阶段。架构模式的不断发展带来的是数据处理实时性和灵活性的大幅提升。按照发展的先后顺序,大数据平台主要有批处理、流计算、Lambda. Kappa 4种架构模式。原创 2022-11-12 14:49:52 · 1016 阅读 · 0 评论 -
YouTube深度学习视频推荐系统
YouTube推荐系统架构是经典的两级模型——召回、精排模型。第一级用候选集生成模型完成候选视频的快速筛选,在这一步,候选视频集合由百万量级降至几百量级。这相当于经典推荐系统架构中的召回层。第二级用排序模型(Ranking Model)完成几百个候选视频的精排。这相当于经典推荐系统架构中的排序层。原创 2022-09-16 16:28:31 · 984 阅读 · 0 评论 -
个性化推荐的工业级实现
特征工程是所有机器学习项目的起点。为了训练推荐模型,我们需要准备好模型所需的样本和特征。此外,在进行模型线上推断的时候,推荐服务器也需要线上实时拼装好包含了用户特征、物品特征、场景特征的特征向量,发送给推荐模型进行实时推断。在“模型实战准备二”这一讲,我们就通过 Spark 处理好了 TensorFlow 训练所需的训练样本,并把 Spark 处理好的特征插入了 Redis 特征数据库,供线上推断使用。原创 2022-09-13 19:45:33 · 744 阅读 · 0 评论 -
局部敏感哈希:如何在常数时间内搜索Embedding最近邻
在深度学习推荐系统中,我们经常采用Embedding召回这一准确又便捷的方法。但是,在面对百万甚至更高量级的候选集时,线性地逐一计算Embedding间的相似度,往往会造成极大的服务延迟。这个时候,我们要解决的问题就是,如何快速找到与一个Embedding最相似的Embedding?这直接决定了召回层的执行速度,进而会影响推荐服务器的响应延迟。遇到最近邻搜索的问题,我想大部分同学直觉上肯定会想到两种解决方案,一种是聚类,我们把相似的点聚类到一起,就可以快速地找到彼此间的最近邻了。...原创 2022-07-17 15:29:14 · 352 阅读 · 0 评论 -
冷启动的解决办法
冷启动问题是推荐系统必须面对的问题。任何推荐系统都要经历数据从无到有、从简单到丰富的过程。那么,在缺乏有价值数据的时候,如何进行有效的推荐被称为“冷启动问题”。具体地讲,冷启动问题根据数据匮乏情况的不同,主要分为三类:(1)用户冷启动,新用户注册后,没有历史行为数据时的个性化推荐。(2)物品冷启动,系统加入新物品后(新的影片、新的商品等),在该商品还没有交互记录时,如何将该物品推荐给用户。(3)系统冷启动,在推荐系统运行之初,缺乏所有相关历史数据时的推荐。针对不同应用场景,解决冷启动问题需要比较专原创 2022-04-24 20:35:16 · 5292 阅读 · 0 评论 -
推荐系统的数据流
批处理大数据架构在大数据平台诞生之前,传统数据库很难处理海量数据的存储和计算问题。 针对这一难题,以Google GFS和Apache HDFS为代表的分布式存储系统诞生, 解决了海量数据的存储问题;为了进一步解决数据的计算问题,Map Reduce框 架被提出,采用分布式数据处理再逐步Reduce的方法并行处理海量数据。“分布式存储+Map Reduce”的架构只能批量处理已经落盘的静态数据,无法在数据采集、传输等数据流动的过程中处理数据,因此被称为批处理大数据架构。相比之前以数据库为核心的数据处理过原创 2022-04-13 18:55:45 · 676 阅读 · 0 评论 -
Embedging与深度学习推荐系统结合
作为深度学习推荐系统不可分割的一部分,Embedding技术主要应用在如下三个方向。(1)在深度学习网络中作为Embedding层,完成从高维稀疏特征向量到低维 稠密特征向量的转换。(2)作为预训练的Embedding特征向量,与其他特征向量连接后,一同输入深度学习网络进行训练。(3)通过计算用户和物品的Embedding相似度,Embedding可以直接作为推 荐系统的召回层或者召回策略之一。下面介绍Embedding与深度学习推荐系统结合的具体方法深度学习网络中的Embedding层髙维稀疏原创 2022-04-09 20:54:50 · 917 阅读 · 0 评论 -
Graph Embedding
Word2vec和由其衍生出的Item2vec是Embedding技术的基础性方法,但二者都是建立在“序列”样本(比如句子、用户行为序列)的基础上的。在互联网场景下,数据对象之间更多呈现的是图结构。典型的场景是由用户行为数据生成的物品关系图,以及由属性和实体组成的知识图谱 。在面对图结构时,传统的序列Embedding方法就显得力不从心了。在这样的背景下,Graph Embedding成了新的研究方向,并逐渐在深度学习推荐系统领域 流行起来。 Graph Embedding是一种对图结构中的节点进行Emb原创 2022-04-07 20:09:48 · 636 阅读 · 0 评论 -
经典的Embedding方法Word2vec
提起Embedding,就不得不提Word2vec,它不仅让词向量在自然语言处理领域再度流行,更为关键的是,自2013年谷歌提出Word2vec以来,Embedding 技术从自然语言处理领域推广到广告、搜索、图像、推荐等深度学习应用领域, 成了深度学习知识框架中不可或缺的技术点。作为经典的Embedding方法,熟悉 Word2vec对于理解之后所有的Embedding相关技术和概念至关重要。什么是Word2vec?Word2vec是“word to vector”的简称,顾名思义,Word2vec是原创 2022-04-05 19:27:48 · 3251 阅读 · 0 评论 -
什么是Embedding?
Embedding,中文直译为“嵌人”,常被翻译为“向量化”或者“向量映射”。 Embedding的主要作用是将稀疏向量转换成稠密向量,便于上层深度神经网络处理。事实上,Embedding技术的作用远不止于此,它的应用场景非常多元化,而且实现方法也各不相同。形式上讲Embedding就是用一个低维稠密的向量“表示”一个对象(object), 这里所说的对象可以是一个词、一个商品,也可以是一部电影,等等。Embedding技术在NLP领域的应用Embedding方法的流行始于自然语言处理领域对于词向量生成原创 2022-04-05 13:34:09 · 6519 阅读 · 0 评论 -
DRN——强化学习与推荐系统结合
强化学习是近年来机器学习领域非常热门的研究话题,它的研究起源于机器人领域,针对智能体在不断变化的环境 中决策和学习的过程进行建模。在智能体的学习过程中,会完成收集外部反馈,改变自身状态,再根据自身状态对下一步的行动进行决策,在行动之后持续收集反馈的循环,简称“行动-反馈-状态更新”的循环。如果把推荐系统当作一个智能体,把整个推荐系统学习更新的过程当作智能体“行动-反馈-状态更新”的循环,就能理解将强化学习的诸多理念应用于推荐系统领域并不是一件困难的事情。2018年,由宾夕法尼亚州立大学和微软亚洲研究院的学原创 2022-04-01 20:22:07 · 6617 阅读 · 0 评论 -
注意力机制在推荐模型中的应用——AFM、DIN、DIEN
“注意力机制”来源于人类最自然的选择性注意的习惯。最典型的例子是用户在浏览网页时,会选择性地注意页面的特定区域,忽视其他区域。正是基于这样的现象,在建模过程中考虑注意力机制对预测结果的影响,往往会取得不错的收益。近年来,注意力机制广泛应用于深度学习的各个领域,无论是在自然语言处理、语音识别还是计算机视觉领域,注意力模型都取得了巨大的成功。从2017年开始,推荐领域也开始尝试将注意力机制引入模型之中,这其中影响力较大的工作是由浙江大学提出的AFM和由阿里巴巴提出的DIN。AFMAFM模型可以被认为NFM模原创 2022-03-22 17:35:43 · 2517 阅读 · 0 评论 -
FM家族详解
由于逻辑回归模型存在表达能力不强的问题,会不可避免地造成有效信息的损失 。 在仅利用单一特征而非交叉特征进行判断的情况下,有时不仅是信息损失的问题, 甚至会得出错误的结论。因此,通过改造逻辑回归模型,使其具备特征交叉的能力是必要和迫切的。POLY2模型——特征交叉的开始针对特征交叉的问题,算法工程师经常采用先手动组合特征,再通过各种分析手段筛选特征的方法 ,但该方法无疑是低效的。因此 ,采 用P0LY2模型进行特征的“暴力”组合成了可行的选择。poly2模型的数学形式如下:可以看到,该模型对所有特原创 2022-03-12 15:17:10 · 1289 阅读 · 0 评论 -
矩阵分解算法
矩阵分解算法针对协同过滤算法的头部效应较明显、泛化能方较弱的问题,矩阵分解算法被提出。矩阵分解 在协同过滤算法中“共现矩阵”的基础上,加入了隐向量的概念,加强了模型处理稀疏矩阵的能力,针对性地解决了协同过滤存在的主要问题。上图描述了协同过滤算法和矩阵分解算法在视频推荐场景下的算法原理。如图(a)所示,协同过滤算法找到用户可能喜欢的视频的方式很直接,即基于用户的观看历史,找到跟目标用户Joe看过同样视频的相似用户,然后找到这些相似用户喜欢看的其他视频,推荐给目标用户Joe。矩阵分解算法则期望为每一个用户原创 2022-03-09 20:43:45 · 2119 阅读 · 0 评论 -
AutoRec单隐层神经网络推荐模型
AutoRec是在2015年由澳大利亚国立大学提出的,它将自编码器的思想和协同过滤结合,提出了一种单隐层神经网络推荐模型。因其简单易懂,特别时候作为深度学习推荐系统的入门。AutoRec模型的基本原理AutoRec模型是一个标准的自编码器,它的基本原理是利用协同过滤中的共现矩阵,完成物品向量或者用户向量的自编码。再利用自编码的结果得到用户对物品的预估评分,进而进行推荐排序。自编码器自编码器顾名思义,是指能后完成数据“自编码”的模型。假设数据向量为r,自编码器的作用是将向量r作为输入,通过自编码器后,原创 2022-03-05 14:01:43 · 1559 阅读 · 0 评论 -
Wide&deep模型详解
谷歌于2016年提出的Wide&Deep模型。Wide&Deep模型的主要思路正如其名,是由单层的Wide部分和多层的Deep部分组成的混合模型。其中,Wide部分的主要作用是让模型具有较强的“记忆能力”; Deep部分的主要作用是让模型具有“泛化能力”,正是这样的结构特点,使模型兼具了逻辑回归和深度神经网络的优点——能够快速处理并记忆大量历史行为特征,并且具有强大的表达能力,不仅在当时迅速成为业界争相应用的主流模型,而且衍生出了大量以Wide&Deep模型为基础结构的混合模型,影响原创 2022-03-08 16:02:35 · 3932 阅读 · 2 评论 -
Deep Crossing模型
背景微软于2016年提出了Deep Crossing模型,是深度学习架构在推荐系统中的第一次完整应用。虽然自2014年以来,就陆续有公司透露在其推荐系统中应用了深度学习模型,但直到Deep Crossing模型发布的当年,才有正式的论文分享了完整的深度学习推荐系统的技术细节。Deep Crossing模型完整地解决了从特征工程、稀疏向量稠密化、多层神经网络进行优化目标拟合#一系列深度学习在推荐系统中的应用问题,为后续的研究打下了良好的基础。Deep Crossing模型的应用场景是微软搜索引擎Bing中原创 2022-03-06 11:03:00 · 909 阅读 · 0 评论 -
NueralCF
从深度学习的视角重新审视CF模型NueralCF模型的结构NueralCF模型的优势和局限性原创 2022-03-08 14:13:15 · 359 阅读 · 0 评论 -
PNN模型
之前介绍的NeuralCF模型的主要思想是利用多层神经网络替代经典协同过滤的点积操作,加强模型的表达能力。广义上,任何向量之间的交互计算方式都可以用来替代协同过滤的内积操作,相应的模型可称为广义的矩阵分解模型。但NeuralCF模型只提到了用户向量和物品向量两组特征向量,如果加入多组特征向 量又该如何设计特征交互的方法呢? 2016年,上海交通大学的研究人员提出的PNN模型,给出了特征交互方式的几种设计思路。PNN模型的网络架构图所示为模型结构图,相比Deep Crossing模型,PNN模型在输入、E原创 2022-03-08 16:08:26 · 1093 阅读 · 0 评论