推荐系统
文章平均质量分 82
分享一些推荐系统的知识+心得
Mr.Wiggles
一个只会发干到不能再干的干货AI科普博主
展开
-
欧氏距离 VS 余弦距离
xx场景应该用欧氏距离还是余弦距离?有啥区别?原创 2023-03-22 17:50:10 · 3209 阅读 · 0 评论 -
用户画像洞察分类模型 - 前端页面展示
如何实现用户交互的前端页面千人千面?算法告诉你答案原创 2022-11-26 12:18:50 · 1484 阅读 · 0 评论 -
RS推荐系统-DSSM双塔模型
DSSM语义召回DSSM是一种基于深度神经网络的语义建模方法,这是由微软发表的一篇关于Query和Doc的相似度计算模型的论文提出。该模型的结构主要由三部分组成(如下图) 输入层输入层主要负责将Query和Doc的数据转换成embedding向量表达,方法通常有TFIDF,One-Hot等。原论文针对英文输入提出了一种叫做Word hashing的特殊embedding方法来降低字典规模。表示层表示层主要是将初始的embedding向量,经过深度学习的方法映射得到Query和Doc的新的em原创 2021-11-23 11:45:43 · 772 阅读 · 0 评论 -
RS推荐系统-CTR算法模型简单回顾回顾
MF和FMMF考虑了userID,itemID的特征,而实际我们需要考虑更多的特征,甚至是多个特征间的组合。MF只解决评分预测问题,而实际问题可能是回归和分类问题,需要更通用的解决方式FM是利用了MF的中心思想,考虑了更多的特征,以及二阶特征组合,可以作为通用的回归和分类算法特征提取是对现实世界的拟合方式y^(x)=w0+∑i=1nwnxn+∑i=1n∑j=i+1n⟨Vi,Vj⟩xixj\hat{y}(x)=w_{0}+\sum_{i=1}^{n} w_{n} x_{n}+\原创 2021-08-09 15:34:59 · 310 阅读 · 0 评论 -
RS推荐系统-基于流行度的推荐
认知流行度流行度(popularity)内容的流行程度,也称之为热度,最常见的是将榜单中热度的内容推荐给用户(微博热搜,TopN商品)基于流行度的推荐是围绕流行度计算产生的推荐模型(不仅是TopN)解决冷启动问题 => 根据流行度来推荐商品的算法,也就是什么内容吸引用户,就给用户推荐什么内容解决冷启动问题 => 根据流行度来推荐商品的算法,也就是什么内容吸引用户,就给用户推荐什么内容流行度的衡量流行度有多种度量的方式,可粗可细一段时间内的:总数Count,相对值Ratio,原创 2021-08-09 13:21:07 · 1379 阅读 · 0 评论 -
RS推荐系统-LSH最近邻查找+MiniHash
什么是最近邻查找?在推荐系统中,主要分为召回跟排序两个阶段。召回阶段,基于用户画像及场景数据从海量的视频库(百万级别)中将相关度最高的资源检索出来,作为候选集,召回阶段可以通过“粗糙”的方式召回候选item。排序阶段,基于更加精细的特征对候选集(百级别)进行排序,最终呈现给用户的是很少的一部分数据。在这个ranking阶段,采用更精细的特征计算user-item之间的排序score,作为最终输出推荐结果的依据。随着机器学习的发展,越来越多问题转移到deep learning上面解决,而系统实际部原创 2021-08-02 15:40:19 · 2089 阅读 · 5 评论 -
RS推荐系统-DeepFM算法
DeepFM算法在前面推荐系统的文章里面提到了FM算法,它可以做特征组合,但是计算量大,一般只考虑2阶特征组合。那么如何既考虑低阶(1阶+2阶),又能考虑到高阶特征呢?这时候引入了DeepFM = FM+DNN,DeepFM设计了一种end-to-end的模型结构 ,无需特征工程,但是在各种benchmark和工程中表现效果都很好。DeepFM = FM + DNN提取低阶(low order)特征 => 因子分解机FM既可以做1阶特征建模,也可以做2阶特征建模提取高阶(high ord原创 2021-07-19 23:17:12 · 357 阅读 · 3 评论 -
RS推荐系统-FFM算法
FFM算法FFM算法是在FM算法上引入了field的概念,FFM把相同性质的特征归于同一个field。比如下图中“Day=26/11/15”、“Day=1/7/14”、“Day=19/2/15”这三个特征代表日期,放到同一个field中。当“Day=26/11/15”与Country特征,Ad_type特征进行特征组合时,使用不同的隐向量(Field-aware),这是因为Country特征和Ad_type特征,本身的field不同FM算法 VS FFM算法对于FM算法:wESPN⋅wNike原创 2021-07-19 12:15:47 · 445 阅读 · 2 评论 -
RS推荐系统-FM因子分解机
MF回顾在我前面的RS推荐系统文章中,讲到了矩阵分解的内容:所谓矩阵分解,就是将矩阵拆解为多个矩阵的乘积。矩阵分解方法:EVD(特征值分解)SVD(奇异值分解)求解近似矩阵分解的最优化问题:ALS(交替最小二乘法):ALS-WRSGD(随机梯度下降法):FunkSVD、BiasSVD、SVD++Tips奇异值分解可以对矩阵无损分解在实际中,我们可以抽取前K个特征,对矩阵进行降维SVD在降维中有效,抽取不同的K值(10%的特征包含99%的信息)在评分预测中使用funkSVD,原创 2021-07-19 11:44:03 · 391 阅读 · 4 评论 -
2021微信大数据挑战赛-初赛-NN思路分享
总结模型该方案是基于Deepfm的baseline模型,线上加权在0.661左右。未进行调参,未进行多折,若后续想提分,可以从模型方面进行着手调试。特征工程主要是通过基础id做的embedding + 视频信息的一些简单统计。这里稍微提一下构建user_embedding和feed_embedding的思路:取出每个用户对应feed的集合,然后打乱,放进word2vec进行训练,得到每个feed的向量。此做法是基于图神经网络中的DeepWalk+itemcf的思想,itemcf是将物品的动原创 2021-07-09 11:14:02 · 1508 阅读 · 5 评论 -
RS推荐系统-P4
LFM和基于邻域的方法的比较LFM是一种基于机器学习的方法,具有比较好的理论基础。这个方法和基于邻域的方法(UserCF、ItemCF)相比,各有优缺点。下面将从不同的方面对比LFM和基于邻域的方法。理论基础LFM具有比较好的理论基础,它是一种学习方法,通过优化一个设定的指标建立最优的模型。基于邻域的方法更多是一种基于统计的方法,并没有学习的过程。离线计算的空间复杂度基于邻域的方法需要维护一张离弦的相关表。在离线计算相关表的过程中。如果用户/物品数很多,将会占据很大的内存。假设有M个用户和N个物原创 2021-05-07 17:28:31 · 180 阅读 · 0 评论 -
RS推荐系统-P2
一、常见推荐算法的分类1. 基于内容的推荐:我们主要是利用物品的静态属性,向用户推荐其喜欢的且相似的内容。2.协同过滤:协同过滤是推荐系统的主流思想之一。基于邻域的协同过滤:UserCF/ItemCF基于模型的协同过滤:隐语义模型(LFM/Latent Factor Model):矩阵分解(MF)、LDA/LSA/pLSA基于贝叶斯网络基于SVMQ:什么是隐语义模型:A:用户与物品之间存在隐含的联系通过隐含特征(latent factor)联系用户兴趣和物品,原创 2021-05-02 13:18:52 · 423 阅读 · 0 评论 -
RS推荐系统-GBDT+LR
GBDT+LR算法背景以前在推荐系统中的CTR预估问题有以下几点:样本数量大,点击率预估模型中的训练样本可达上亿级别学习能力有限,以往的CTR预估采用LR模型,LR是线性模型,虽然速度较快,但是学习能力有限人工成本高,为了更好的进行特征提取,提升LR的学习能力,需要采用人工特征工程,即通过人工方式找到有区分度的特征、特征组合。对人的要求高,时间成本高针对以上问题,为了自动发现有效的特征及特征组合,弥补人工经验不足,缩短LR实验周期,提出了GBDT+LR算法。这个算法的大体思路如下:先用G原创 2021-06-28 19:12:49 · 355 阅读 · 0 评论 -
RS推荐系统-P3
UserCF和ItemCF的优缺点对比在早期的研究中,大部分研究人员都是让少量的用户对大量的物品进行评价,然后研究用户兴趣的模式。那么,对于他们来说,因为用户很少,计算用户兴趣相似度是最快也是最简单的方法。但在实际的互联网中,用户数目往往非常庞大,而在图书、电子商务网站中,物品的数目则是比较少的。此外,物品的相似度相对于用户的兴趣一般比较稳定,因此使用ItemCF是比较好的选择。当然,新闻网站是个例外,在那儿,物品的相似度变化很快,物品数目庞大,相反用户兴趣则相对固定(都是喜欢看热门的),所以新闻网站的个原创 2021-05-07 14:47:26 · 130 阅读 · 0 评论 -
RS推荐系统-文本+用户画像
在推荐系统中,每个用户和物品也有其大量的文本信息,我们需要通过大量的文本数据中挖掘出每个用户的画像。用户方在用户这一方,可以获取:注册资料中的姓名,个人信息发表过的评论,动态等个人的聊天记录物品端物品的标题,描述物品本身的内容物品的其他基本属性文本对于互联网产品而言,信息的表达是最常见的一种方式,数量多,存储小,所有在推荐系统中,文本数据的挖掘起到至关重要的作用。构建用户画像要在物品端和用户端构建出一个基础的用户画像,需要做一下事情:把所有非结构化的文本结构化,去粗取精,原创 2021-06-17 10:42:00 · 353 阅读 · 0 评论 -
RS推荐系统-实例之基于内容相似度的酒店推荐
在推荐系统中,有一个环节是基于物品的推荐。它是基于物品的相似度,即物品的静态属性,如物品内容描述、物品特征向量等属性。这次我们会用到TFIDF和相似度计算的方法,对用户进行酒店推荐。本次使用的酒店数据会放到github中,需要自取:https://github.com/Vihagle/AI/tree/main/data.import numpy as npimport pandas as pdimport nltknltk.download('stopwords')from sklearn.met原创 2021-05-29 17:04:17 · 825 阅读 · 0 评论 -
RS推荐系统-P5
本次主要讲解在文本分类中,通过TF-IDF计算不同文本的内容权重,然后引入KMean对不同文本的TF-IDF的权重向量进行聚类。此方法广泛应用在推荐系统中基于内容的推荐。TF-IDF在讲解例子之前,想了解一下什么是TF-IDF。TF:Term Frequency,词频IDF:Inverse Document Frequency,逆向文档率一个单词在文档中的区分度。这个单词出现的文档数越少,区分度越大,IDF越大。下面通过一个小例子,加深一下了解:import numpy as np原创 2021-05-15 10:57:21 · 180 阅读 · 0 评论 -
RS推荐系统-P1
对于一个标准的推荐系统,最主要的步骤就是建立用户画像,我们需要从从用户和商品的数据找出其关联性。用户画像建立所需要解决的三个问题:都是谁从哪来到哪去针对上面的三个问题,我们会有以下的建立步骤:统一标识:用户唯一标识是用户画像的的核心,比如UserID给用户打标签:用户标签的四个维度:基于标签指导业务:业务赋能的三个阶段有了用户画像的建立,我们会根据一定的业务流对数据流进行处理:上面提到的用户画像会生成一个个标签tag,我们会利用tag计算用户或者物品之间的相似度,这原创 2021-04-27 17:47:26 · 175 阅读 · 0 评论 -
RS推荐系统-关联规则-Apriori
关联规则关联规则又称为:Association Rules,旨在表达:如果一个消费者购买了产品A,那么他有多大几率会购买产品B?故事背景:沃尔玛在分析销售记录时,发现啤酒和尿布经常一起被购买,于是他们调整了货架,把两者放在一起,结果真的提升了啤酒的销量。原因解释:爸爸在给宝宝买尿布的时候,会顺便给自己买点啤酒?沃尔玛是最早通过大数据分析而受益的传统零售企业,对消费者购物行为进行跟踪和分析。对于关联规则,引入下面三个概念:支持度、置信度和提升度支持度支持度:是个百分比,指的是某个商品组合出现的次原创 2021-07-05 11:28:44 · 720 阅读 · 0 评论