推荐系统
文章平均质量分 80
推荐系统相关内容和知识点整理
卢之
现为阅文集团作家,量化交易初学者,兼职某厂推荐算法工程师。
展开
-
[ICLR 2023] MASKFUSION: FEATURE AUGMENTATION FOR CLICK-THROUGH RATE PREDICTION VIA INPUT-ADAPTIVE
这种方式基本上属于万金油的trick优化方式,提升Mask的准确性以及泛化性,适用于各个以DNN为基础的推荐系统,也属于比较好工程实现的方式。原创 2023-04-16 11:30:31 · 346 阅读 · 2 评论 -
2023 推荐系统论文整理
对2023年的推荐系统论文进行一波收集,给各位做灵感。原创 2023-04-14 16:25:54 · 7893 阅读 · 0 评论 -
推荐系统实践 0x13 Word2Vec
Word2Vec是谷歌团队提出的,让词向量在自然语言处理当中再度流行,并且推广到了广告、搜索、推荐等各个领域当中。Word2Vec顾名思义,就是一个生成对词的向量表达的模型。假设我们使用一组句子组成的语料库作为训练数据,其中一句长度为\(T\)的句子为\(w_1,w_2,...,w_T\),假设每个词都与最相邻的词关系最为密切。那么这种密切的关系可以分为两种:CBOW。 每个词都是由相邻的词...原创 2021-01-04 10:18:00 · 161 阅读 · 0 评论 -
推荐系统实践 0x0f AutoRec
从这一篇开始,我们开始学习深度学习推荐模型,与传统的机器学习相比,深度学习模型的表达能力更强,并且更能够挖掘出数据中潜藏的模式。另外。深度学习模型结构也非常灵活,能够根据业务场景和数据结构进行调整。还是原来的样子,我会按照原理以及代码实现,再就是一些优缺点进行逐一介绍。AutoRecAutoRec可以说是最小的深度学习推荐系统了,它是一种单隐层神经网络推荐模型,将自编码器与协同过滤相结合。那...原创 2020-12-14 20:00:00 · 63 阅读 · 0 评论 -
推荐系统实践 0x0e LS-PLM
在之前介绍的几个模型中,存在这些问题:LR不能捕捉非线性,只能进行一次的回归预测GBDT+LR虽然能够产生非线性特征组合,但是树模型不适用于超高维稀疏数据FM利用二阶信息来产生变量之间的相关性,但是无法适应高阶组合特征,高阶组合容易爆炸那么,下面介绍的LS-PLM模型一定程度上缓解了这个问题。LS-PLMLS-PLM是阿里巴巴曾经主流的推荐模型,这一篇文章就来介绍一下LS-PLM...原创 2020-12-10 19:27:00 · 116 阅读 · 0 评论 -
推荐系统实践 0x12 Embedding
做过深度学习的小伙伴,大家应该多多少少都听说过Embedding,这么火的Embedding到底是什么呢?这篇文章就用来介绍Embedding。另外,基于深度学习的推荐系统方法或者论文还没有结束,我打算穿插进行讲解,毕竟,深度学习出来的推荐框架的算法实在是太相像了,很难有大的不同。所以,这一篇就聊聊Embedding。初识EmbeddingEmbedding又被成为向量化,或者向量的映射。E...原创 2020-12-21 21:44:00 · 243 阅读 · 0 评论 -
推荐系统实践 0x10 Deep Crossing
这一篇,我们将介绍微软BING AD团队提出的Deep Crossing模型,用来解决大规模特征组合问题的模型,这些特征可以是稠密的,也可以是稀疏的,从而避免了人工进行特征组合,并使用了当年提出的残差神经网络。这个模型也算是深度学习在推荐系统的完整应用了:完整的解决了特征工程、稀疏向量稠密化、多层神经网络进行优化等一些列深度学习的目标应用。特征微软在广告场景中所使用的特征如下面所示:查询...原创 2020-12-17 15:33:00 · 85 阅读 · 0 评论 -
推荐系统实践 0x0d GBDT+LR
前一篇文章我们介绍了LR->FM->FFM的整个演化过程,我们也知道,效果最好的FFM,它的计算复杂度已经达到了令人发指的\(n^2k\)。其实就是这样,希望提高特征交叉的维度来弥补稀疏特征,不可避免的带来组合爆炸和计算复杂度过高的问题。这一篇,我们介绍一下Facebook提出的GBDT+LR的组合来解决特征组合和筛选的问题。结构整体的思路就是用GBDT构建特征工程,使用LR预估...原创 2020-12-09 19:12:00 · 108 阅读 · 0 评论 -
推荐系统实践 0x0b 矩阵分解
前言推荐系统实践那本书基本上就更新到上一篇了,之后的内容会把各个算法结合着《深度学习推荐算法》这本书拿来当专题进行讲解。在这一篇,我们将会介绍矩阵分解这一方法。一般来说,协同过滤算法(基于用户、基于物品)会有一个比较严重的问题,那就是头部效应。热门的物品容易跟大量的物品产生相似性,而尾部的物品由于特征向量系数很少产生与其他物品的相似性,也就很少被推荐。矩阵分解算法为了解决这个问题,矩阵分解...原创 2020-12-04 20:43:00 · 94 阅读 · 0 评论 -
推荐系统实践 0x0c FM系列(LR/FM/FFM)
逻辑回归(LR)在介绍FM系列之前,我想首先简单介绍一下逻辑回归。通常来说,逻辑回归模型能够综合利用更多的信息,如用户、物品、上下文等多种不同的特征,生成更为全面的结果。另外,逻辑回归将推荐问题看成一个分类问题。通过预测正样本的概率对物品进行排序,这里的正样本可以是用户观看了某个视频,也可以是用户点击了某个商品,或者用户播放了某个音乐等等。逻辑回归模型将推荐问题转换成了CTR(click th...原创 2020-12-07 19:16:00 · 235 阅读 · 0 评论 -
推荐系统实践 0x04 用户行为
用户行为数据很多事情用户无法表述自己喜欢什么,所以需要推荐算法挖掘用户行为数据,从用户行为中推测用户兴趣,从而给用户推荐他们感兴趣的物品。啤酒与纸尿布的故事就不讲了,相信大家也都听说过。用户行为数据在网站上最简单的存在形式就是日志。这些日志记录了用户的各种行为,如在电子商务网站中这些行为主要包括网页浏览、购买、点击、评分和评论等。用户行为在个性化推荐系统中一般分两种——显性反馈行为(expl...原创 2020-11-23 21:11:00 · 104 阅读 · 0 评论 -
推荐系统实践 0x08 隐语义模型LFM
隐语义模型(LFM)LFM(latent factor model)隐语义模型是前几年比较火的模型,它的核心思想是通过隐含特征来联系用户兴趣和物品。我们先给出LFM通过公式计算用户\(u\)对物品\(i\)的兴趣:\[\mathrm{Preference} = r_{ui} = p_u^T q_i=\sum_{f=1}^{F}p_{u,k}q_{i,k}\]这个公式中\(p_{u,k}\)...原创 2020-11-26 21:18:00 · 117 阅读 · 0 评论 -
推荐系统实践 0x06 基于邻域的算法(1)
基于邻域的算法(1)基于邻域的算法主要分为两类,一类是基于用户的协同过滤算法,另一类是基于物品的协同过滤算法。我们首先介绍基于用户的协同过滤算法。基于用户的协同过滤算法(UserCF)基于用户的协同过滤算法是最古老的算法了,它标志着推荐系统的诞生。当一个用户甲需要个性化推荐时,首先找到那些跟他兴趣相似的用户,然后把那些用户喜欢的,甲没有听说过的物品推荐给用户甲,那么这种方式就叫做基于用户的...原创 2020-11-25 20:13:00 · 167 阅读 · 0 评论 -
推荐系统实践 0x05 推荐数据集MovieLens及评测
推荐数据集MovieLens及评测数据集简介MoiveLens是GroupLens Research收集并发布的关于电影评分的数据集,规模也比较大,为了让我们的实验快速有效的进行,我们选取了发布于2003年2月的 MovieLens 1M,这个数据集包含6000个用户对4000个电影的一百万个评分。这个数据集经常用来做推荐系统,机器学习算法的测试数据集。尤其在推荐系统领域,很多著名论文都是基...原创 2020-11-24 19:37:00 · 243 阅读 · 0 评论 -
推荐系统实践 0x09 基于图的模型
用户行为数据的二分图表示用户的购买行为很容易可以用二分图(二部图)来表示。并且利用图的算法进行推荐。基于邻域的模型也可以成为基于图的模型,因为基于邻域的模型都是基于图的模型的简单情况。我们可以用二元组\((u,i)\)来表示用户\(u\)对物品\(i\)有过购买行为,这样的话数据集可以用一个二分图来表示。我这里尝试画一个二分图(有点丑,不要介意哈):graph LRA(A) -->a...原创 2020-12-01 17:19:00 · 62 阅读 · 0 评论 -
推荐系统实践 0x0a 冷启动问题
什么是冷启动问题如何在没有大量用户数据的情况下设计个性化推荐系统并且让用户对推荐结果满意从而愿意使用推荐系统,就是冷启动问题。冷启动问题主要分为三类:用户冷启动物品冷启动系统冷启动下面我们将分别介绍这三种冷启动情况。用户冷启动用户冷启动主要解决如何给新用户做个性化推荐的问题。当新用户到来时,我们没有他的行为数据,所以也无法根据他的历史行为预测其兴趣,从而无法借此给他做个性化推荐...原创 2020-12-02 20:19:00 · 52 阅读 · 0 评论 -
推荐系统实践 0x07 基于邻域的算法(2)
基于邻域的算法(2)上一篇我们讲了基于用户的协同过滤算法,基本流程就是寻找与目标用户兴趣相似的用户,按照他们对物品喜好的对目标用户进行推荐,其中哪些相似用户的评分要带上目标用户与相似用户的相似度作为权重来计算。但是,基于用户的协同过滤算法存在一些弊端,如计算用户兴趣相似度矩阵将越来越困难,其运算时间复杂度和空间复杂度的增长和用户数的增长*似于*方关系,另外也很难对推荐结果进行解释。那么,这一篇...原创 2020-11-26 19:44:00 · 141 阅读 · 0 评论 -
推荐系统实践 0x03 评测指标
评测指标评测指标可以评测推荐系统各个方面的性能,有些是可以定量计算的,而有些只能定性描述。有些可以通过离线实验计算,有些需要通过用户调查获得,还有些只能在线评测。接下来我们将对各个评测指标进行介绍。用户满意度用户满意度无法进行离线计算,只能通过用户调查以及在线实验获得。如果是在线实验当中,可以通过用户购买推荐商品的购买率对用户满意度进行度量。或者使用“满意”、“不满意”的按钮进行反馈。一般...原创 2020-11-23 20:01:00 · 187 阅读 · 0 评论 -
推荐系统实践 0x00 序
开篇最后还是找到了自己算是满意的工作,也准备开始新的研究领域,推荐算法。由于我之前的研究内容主要是围绕着CV展开,所以还是需要提前学习一下推荐算法的知识。目前选择了《推荐系统实践》这本书,看中了它能够将知识点和代码相结合的优势,并不枯燥也有一部分项目实践等等。这篇文章就算作自己开始读这本《推荐系统实践》笔记系列的序章。我打算准备把一些知识心得,以及相关的我跑通的代码贴到这个读书笔记系列当中,...原创 2020-11-22 18:48:00 · 57 阅读 · 0 评论 -
推荐系统实践 0x02 推荐系统实验
推荐系统实验一个好的推荐系统,一般会使得用户、物品提供者和推荐系统三方共赢。预测准确度是推荐系统最重要的指标,通常这个指标比较容易通过离线的数据计算出来。但是准确的预测不代表好的推荐,如这个用户在使用推荐系统之前就准备好购买这个物品,那么对这个物品准确的预测没有任何意义。好的推荐系统不仅仅能够准确预测用户的行为,而且能够扩展用户的视野,帮助用户发现那些他们可能会感兴趣,但却不那么容易发现的东...原创 2020-11-22 21:17:00 · 177 阅读 · 0 评论 -
推荐系统实践 0x01 推荐系统简介
推荐系统简介什么是推荐系统由于当前社会由信息匮乏转变为信息过载,需要筛选工具对信息进行筛选,如个性化推荐系统,可以对那些没有什么明确需求的用户进行推荐。如何从海量的数据中筛选出用户真正感兴趣的事情是一件非常具有挑战性的事情。推荐系统的任务就是联系用户和信息,一方面帮助用户发现对自己有价值的信息,另一方面让信息能够展现在对它感兴趣的用户面前,从而实现信息消费者和信息生产者的双赢。目前具有代...原创 2020-11-22 19:45:00 · 79 阅读 · 0 评论 -
[IJCAI2017] Attentional Factorization Machines: Learning the Weight of Feature Interactions
这篇论文的摘要中写道:In this work, we improve FM by discriminating the importance of different feature interactions.该论文通过区别不同特征交互的重要性来提升FM算法的性能。其主要的核心部分是通过神经网络实现的注意力机制进行区分。在有监督学习当中,特征之间的交互是非常重要的。最常见的特征交互莫...原创 2021-04-22 16:27:00 · 175 阅读 · 0 评论 -
[CIKM2019] AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks
像CTR预估这种任务在推荐系统或者在线广告当中十分常见,但是这个问题也非常具有挑战性,比如所使用的输入特征都是离散并且高维的,有效的预测依赖于高阶组合特征(又称交叉特征)。因此,人们一直在努力寻找稀疏和高维原始特征的低维表示及其有意义的组合。这篇论文提出了AutoInt来学习高阶特征的交叉表示。并且提出了一个具有残差连接的多头自关注力神经网络,以明确地模拟低维空间中的特征互动。通过多头自关注神...原创 2021-05-24 17:07:00 · 382 阅读 · 0 评论 -
[CVPR2021]Beyond Self-attention External Attention using Two Linear Layers for Visual Tasks
这篇论文已经不是推荐系统系列论文当中了,而是作为讨论注意力机制以及普通的全连接层之间的关系,也就是我们是否需要使用那么复杂的注意力机制来完成各种任务。介绍注意力机制,特别是自注意力机制,在视觉任务的深度特征表示中发挥着越来越重要的作用。自我注意机制通过计算特征的加权和来更新每个位置的特征,使用所有位置的成对亲和力来捕捉单个样本内的长程依赖性。然而,自我注意机制具有二次复杂性,并且忽略了不同样...原创 2021-05-31 16:34:00 · 263 阅读 · 0 评论