入门推荐系统——概述

原始发表时间:2020-10-19
转载请注明出处。https://blog.csdn.net/qq_45048482/article/details/109171929
如有侵权,请联系 xiaomin186@foxmail.com 删除。

最近在学习推荐系统,输出读书笔记,请各位多多指教!

核心内容

  1. 协同过滤算法:基于用户的协同过滤(UserCF)和基于商品的协同过滤(ItemCF),入门必看
  2. 矩阵分解算法:引入了隐向量的概念,加强了模型处理稀疏矩阵的能力
  3. FM:在LR模型的基础上加上了特征交叉项
  4. GBDT+LR:使用树模型做特征交叉,相比于FM的二阶特征交叉,充分利用了特征之间的相关性。
  5. Wide&Deep:在推荐系统中较重要

1.推荐系统介绍

推荐系统更多的利用用户的各类历史信息猜测其可能喜欢的内容;公司:解决产品能够最大限度地吸引用户,留存用户,增长用户黏性,提高用户转化率,从而达到公司商目标连续增长的目的。
用户-商品-公司之间利益最大化的手段。

2.评价指标

  1. 用户满意度
    用户满意度这个指标无法离线计算,只能通过用户调查或者在线实验获得。在线实验:通过用户的线上行为统计得到的。比如电商场景中,用户如果购买了推荐的商品说明一定程度上他们是满意的,因此可以通过购买率度量用户的满意度,与购买率类似的点击率用户停留时间转化率等指标都可以用来度量用户的满意度。

  2. 预测准确度
    度量用户的实际行为与推荐系统预测结果的准确度,下面是预测准确度最常用的两个指标:

    • 评分预测
      评分预测模型通过对用户的历史物品评分记录进行建模,进而得到用户的兴趣模型,然后使用该模型预测用户未未见过商品的评分。一般使用均方根误差(RMSE)和平均绝对误差(MAE)。
      对于测试集中的一个用户 u u u和物品 i i i,令 r u i r_{ui} rui是用户 u u u对物品 i i i的实际评分,而 r u i ^ \hat{r_{ui}} rui^是推荐模型预测出的评分,那么RMSE可以定义为: R M S E = ∑ u , i ∈ T ( r u i − r ^ u i ) 2 ∣ T ∣ RMSE = \sqrt{\frac{\sum_{u,i \in T}(r_{ui} - \hat{r}_{ui})^2}{|T|}} RMSE=Tu,iT(ruir^ui)2 MAE定义为: M A E = ∑ u , i ∈ T ∣ r u i − r ^ u i ∣ ∣ T ∣ MAE = \frac{\sum{u,i \in T}|r_{ui} - \hat{r}_{ui}|}{|T|} MAE=Tu,iTruir^ui

    • TopN推荐
      最常用的预测准确率指标一般是精确率(precision)和召回率(recall),令 R ( u ) R(u) R(u)为通过推荐模型得到的推荐列表, T ( u ) T(u) T(u)为用户在实际场景中(测试集)的行为列表。

      • 精确率(precision): 分类正确的正样本个数占分类器判定为正样本的样本个数比例(这里 R ( u ) R(u) R(u)相当于是模型判定的正样本) P r e c i s i o n = ∑ u ∈ U ∣ R ( u ) ∩ T ( u ) ∣ ∑ u ∈ U ∣ R ( u ) ∣ Precision= \frac{\sum_{u \in U}|R(u) \cap T(u)|}{\sum_{u \in U}|R(u)|} Precision=uUR(u)uUR(u)T(u)

      • 召回率(recall): 分类正确的正样本个数占真正的正样本个数的比例(这里的 T ( u ) T(u) T(u)相当于真正的正样本集合)
        R e c a l l = ∑ u ∈ U ∣ R ( u ) ∩ T ( u ) ∣ ∑ u ∈ U ∣ T ( u ) ∣ Recall= \frac{\sum_{u \in U}|R(u) \cap T(u)|}{\sum_{u \in U}|T(u)|} Recall=uUT(u)uUR(u)T(u)

通常会选取不同的推荐列表长度计算多组精确率与召回率,然后分别绘制出精确率曲线和召回率曲线,需要注意的是这里并不是PR曲线

PR曲线有待学习了解

  1. 覆盖率
    覆盖率是用来描述一个推荐系统对物品长尾的发掘能力,即推荐系统所有推荐出来的商品集合数占总物品集合数的比例。需要统计不同物品出现次数的分布。所有的物品都出现在推荐列表中,且出现的次数都差不多,分布比较平缓说明推荐系统的覆盖率比较高,那么推荐系统发掘长尾的能力就很好;反之,则覆盖率低。
    可使用信息熵基尼系数来定义覆盖率.

    信息熵定义覆盖率: 其中 p ( i ) p(i) p(i)是物品 i i i的流行度除以所有物品流行度之和 H = − ∑ i = 1 n p ( i ) l o g p ( i ) H = -\sum_{i=1}^n p(i) logp(i) H=i=1np(i)logp(i) 基尼系数定义覆盖率: 其中 i j i_j ij是按照物品流行度p从小到大排序的物品列表中第 j j j个物品 G = 1 n − 1 ∑ j = 1 n ( 2 j − n − 1 ) p ( i j ) G=\frac{1}{n-1} \sum_{j=1}^{n}(2j-n-1)p(i_{j}) G=n11j=1n(2jn1)p(ij)

不是很懂这里是怎么计算覆盖率的

  1. 多样性
    好的推荐系统得到的推荐列表中应该尽可能多的包含用户的兴趣,只有这样才能增加用户找到感兴趣物品的概率。
    度量推荐列表中物品的多样性,就是度量推荐列表中所有物品之间的不相似性,可通过不同的相似性函数来度量推荐列表中商品的相似性,比如商品基于内容的相似,基于协同过滤的相似,这样就可以得到不同角度的多样性。

    令函数 s ( i , j ) s(i,j) s(i,j)为物品 i i i和物品 j j j的相似性,那么用户推荐列表的多样性可以定义为: ( R ( u ) R(u) R(u)相当于是模型判定的正样本) D i v e r s i t y ( R ( u ) ) = 1 − ∑ i , j ∈ R ( u ) s ( i , j ) 1 2 ∣ R ( u ) ∣ ( ∣ R ( u ) ∣ − 1 ) Diversity(R(u))=1-\frac{\sum_{i,j \in R(u)}s(i,j)}{\frac{1}{2}|R(u)|(|R(u)|-1)} Diversity(R(u))=121R(u)(R(u)1)i,jR(u)s(i,j) 推荐系统整体的多样性可以定义为所有用户推荐列表多样性的平均值: D i v e r s i t y = 1 U ∑ u ∈ U D i v e r s i t y ( R ( u ) ) Diversity = \frac{1}{U} \sum_{u\in U}Diversity(R(u)) Diversity=U1uUDiversity(R(u))

  2. 新颖性
    相当于给用户推荐他们之前没有看过的物品,但是每个用户没见过的物品数量是非常庞大的,所以一般会计算推荐物品的平均流行度。流行度越低的物品越有可能让用户觉得新颖,因此,如果推荐结果中的物品平均热门程度比较低说明推荐的结果就可能比较新颖。

  3. AUC曲线(Area Under Curve)
    即ROC曲线下与坐标围成的面积。
    在讲AUC前需要理解混淆矩阵,召回率,精确率,ROC曲线等概念:
    混淆矩阵

TP:真的真了(真实值是真的,预测也是真)

FN:真的假了(真实值是真的,预测为假了)

FP:假的真了(真实值是假的,预测为真了)

TN:假的假了(真实值是假的,预测也是假)

召回率另一种形式的定义:
R e c a l l = T P T P + F N   P r e c i s e = T P T P + F P Recall = \frac{TP}{TP+FN}\ Precise=\frac{TP}{TP+FP} Recall=TP+FNTP Precise=TP+FPTP

ROC曲线的横坐标为假阳性率(False Positive Rate, FPR),N是真实负样本的个数, FP是N个负样本中被分类器预测为正样本的个数。
纵坐标为真阳性率(True Positive Rate, TPR),P是真实正样本的个数,TP是P个正样本中被分类器预测为正样本的个数。

3.召回

  1. 召回层在推荐系统架构中的作用及位置
    召回层与排序层是推荐系统的核心算法层。
    召回阶段负责将海量的候选集快速缩小为几万到几千的规模;而排序层则负责对缩小后的候选集进行精准排序
    在召回阶段往往会利用少量的特征和简单的模型对大规模的数据集进行快速的筛选,而在排序层一般会使用更多的特征和更加复杂的模型进行精准的排序。
    各自特点
  • 召回层:待计算的候选集合大、计算速度快、模型简单、特征较少,尽量让用户感兴趣的物品在这个阶段能够被快速召回,即保证相关物品的召回率。
  • 排序层:首要目标是得到精准的排序结果。需要处理的物品数量少,可以利用较多的特征,使用比较复杂的模型。

在设计召回层时,“计算速度”和“召回率”其实是矛盾的两个指标,为提高“计算速度”,需要使召回策略尽量简单一些;而为了提高“召回率”,要求召回策略尽量选出排序模型所需要的候选集,这也就要求召回策略不能过于简单。在权衡计算速度和召回率后,目前工业界主流的召回方法是采用多个简单策略叠加的**“多路召回策略”**

  1. 多路召回策略
    采用不同的策略、特征或简单模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用。
    各种简单策略保证候选集的快速召回,从不同角度设计的策略保证召回率接近理想的状态,不至于损伤排序效果。
    如下图是多路召回的一个示意图,在多路召回中,每个策略之间毫不相关,所以一般可以写并发多线程同时进行,这样可以更加高效。
    多路召回策略
    针对不同的任务对于该业务真实场景下需要考虑的召回规则。例如视频推荐,召回规则可以是“热门视频”、“导演召回”、“演员召回”、“最近上映“、”流行趋势“、”类型召回“等等。
  • 存在的问题
    对于每一路召回都会从商品集合中拉回K个商品,这里的K是一个超参数,对于K的选择一般需要通过离线评估加线上的A/B测试来确定合理的K值。除此之外,对于不同的任务具体策略的选择也是人工基于经验的选择,选择的策略之间的信息是割裂的,无法总和考虑不同策略对一个物品的影响。

基于上述问题,Embedding召回是一个综合性强且计算速度也能满足需求的召回方法。

  • Embedding召回
  • Embedding是什么
    目的是将稀疏的向量(如one-hot编码)表示转换成稠密的向量。下图直观的显示了one-hot编码和Embedding表示的区别于联系。Embedding相当于是对one-hot做了平滑,而one-hot相当于是对Embedding做了max pooling。
  • 常见的Embedding技术
    • text embedding
    • image embedding
    • graph embedding

在推荐系统领域,text embedding技术是目前使用最多的embedding技术,对于文本特征可以直接使用该技术,对于非文本的id类特征,可以先将其转化成id序列再使用text embedding的技术获取id的embedding再做召回。

常见的text Embedding的技术有:

  • 静态向量:word2vec, fasttext, glove
  • 动态向量:ELMO, GPT, BERT

对于image embedding其实主要是对于有图或者视频的特征,目前计算机视觉模型已经发展的比较成熟了,对于图像与视频的识别都有效果比较好的模型,大部分都是卷积模块通过各种连接技巧搭建的高效模型,可以使用现有的预训练模型提取图像或者视频的向量特征,然后用于召回。

对于社交网络相关的推荐,进行推荐的用户与用于之间或者商品之间天然的存在某种复杂的图结构的关系,如何利用图中节点与节点之间的关系对其进行向量化是非常关键的,在这种场景下基于序列的text embedding和基于卷积模型的image embedding都显得力不从心,在这样的背景下Graph Embedding逐渐在推荐系统中流行起来。经典的Graph Embedding模型有, Deep Walk, Node2Vec,LINE以及比较新的阿里巴巴2018年公布的EGES graph Embedding模型。

4.课后思考

  1. 为什么使用AUC

我也不知道。还需要多看写资料

例如0.7的AUC,其含义可以大概理解为:给定一个正样本和一个负样本,在70%的情况下,模型对正样本的打分高于对负样本的打分。可以看出这个解释下,我们关心的只有正负样本之间的分数高低,而具体的分支则无关紧要

【多高的AUC才算高】:多高的AUC才算高

  1. 如何使用Embedding做召回?
    参考腾讯的
    推荐系统 embedding 技术实践总结

5.参考

原始发表时间:2020-10-19
转载请注明出处。https://blog.csdn.net/qq_45048482/article/details/109171929
如有侵权,请联系 xiaomin186@foxmail.com 删除。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值