推荐系统初学者系列（1）-- 基于特征的推荐算法

最新推荐文章于 2022-03-05 21:37:58 发布

bllddee

最新推荐文章于 2022-03-05 21:37:58 发布

阅读量4k

点赞数 3

分类专栏：推荐系统

本文链接：https://blog.csdn.net/Dooonald/article/details/80027224

版权

推荐系统专栏收录该内容

11 篇文章 8 订阅

订阅专栏

七月在线视频推荐：
七月在线
在这里插入图片描述

下一篇：
推荐系统初学者系列（2）-- SVD奇异值分解

文章目录

1. 推荐算法准确度度量公式：

$\frac{\sum_{u} \left | R\left ( u \right ) \bigcap T\left ( u \right )\right |}{\sum _u\left | T\left ( u \right ) \right |}$

$\frac{\sum_u \left | R\left ( u \right ) \bigcap T\left ( u \right )\right |}{\sum _u\left | R\left ( u \right ) \right |}$

其中，R(u)表示对用户推荐的N个物品，T(u)表示用户u在测试集上喜欢的物品集合。

2. 集合相似度度量公式(N维向量的距离度量公式)：

2.1Jaccard公式：

$W_{uv} = \left | \frac{N\left ( u \right )\bigcap N\left ( v \right )}{N\left ( u \right )\bigcup N\left ( v \right )} \right |$

其中，N(u)表示用户u有过正反馈的物品集合。

2.2余弦相似度公式：

$W_{uv} = \frac{\left | N\left ( u \right ) \bigcap N\left ( v \right )\right |}{\sqrt{\left | N\left ( u \right ) \right | \left|N\left ( v \right )\right |}}$

3. UserCF公式：

$p\left ( u, i \right ) = \sum _{v\in S\left ( u, K \right )\bigcap N\left ( i \right )} w_{uv}r_{vi}$

其中，S(u,K)表示和用户u兴趣最接近的K个用户集合；N(i)表示对物品i有过正反馈的用户集合；w(u,v)表示用户u和用户v的兴趣相似度；r(v,i)表示用户v对物品i的兴趣。默认取r(v,i)=1或0。

视角：用户即是特征。完全的个性化，每个用户都是唯一的，每个用户表示一维的特征。用户数量即是特征空间的维度，用户特征表示成TU(u)={0,0,0, … , 1, …, }，t(u, u)=1, 其余为0。对于物品的特征向量TI(j)={0, 1, 1, 1, 0, … , …}, 凡购买物品i的用户维度特征均为1。进一步，物品的特征空间可用用户购买的次数表示。相似度w(u,v)看成相应维度特征的加权值。

4. ItemCF公式：

$p\left ( u, j \right ) = \sum _{i\in N\left ( u \right ) \bigcap S\left ( j, K \right ) } w_{ij}r_{ui}$

其中，S(j,K)表示和物品j最相似的K个物品集合；N(u)表示用户喜欢的物品集合；w(i,j)表示物品i和物品j的相似度；r(u,i)表示用户u对i物品的兴趣。默认取r(u,i)=1或0。

视角：物品即是特征。每个物品都是唯一的，每个物品表示一维的特征。物品数量即是特征空间的维度，物品特征表示成TU(u)={0,0,0, … , 1, …, }，t(u, u)=1, 其余为0。对于用户的特征空间TI(j)={0, 1, 1, 1, 0, … , …}, 凡购买物品i的维度特征均为1。进一步，物品的特征空间可用用户购买的次数表示。相似度w(i,j)看成相应维度特征的加权值。

5. LFM公式：

$p\left ( u, i \right ) = p_u^T q_i = \sum_{k = 1}^F p_{uk} q_{ik}$

参数递推公式：

$p_{uk} = p_{uk} + \alpha \left ( q_{ik} - \lambda p_{uk}\right )$

$q_{ik} = q_{ik} + \alpha \left ( p_{uk} - \lambda q_{ik} \right )$

其中，F表示隐类数量；p(u,k)表示用户u对第k个隐类的兴趣度；q(i,k)表示第k个隐类和物品i的相似度。Alpha表示学习速率；lamda表示正则化参数。

视角：LFM的公式就是典型的特征向量空间和特征加权矩阵的泛化表示形式。

6. TagCF公式：

$p\left ( u,i \right ) = \sum_b n_{ub} n_{bi}$

n(u,b)表示用户u打过标签b的次数；n(b,i)表示物品i被打过标签的次数。

视角：标签即是特征。

7. 关系链推荐公式：

$p\left ( u,i \right ) = \sum_{v \in F\left ( u \right )} w_{uv} r_{vi}$

其中，F(u)表示用户u的好友集合；w(u,v)可表示用户u和v的熟悉程度(共同好友数)，也可表示用户u和v兴趣的相似度(UserCF定义)，也可是二者的综合度量；r(v,i)表示用户v对物品i的兴趣。默认取r(v,i)=1或0。

视角：好友是特征，或者好友兴趣是特征。

8. 信息流推荐公式：

$p\left ( u,i \right ) = \sum_{e \in E\left ( i \right )} v_ew_ed_e$

其中，信息流i的边e表示其他用户对信息流i产生行为；E(e)表示和信息流i边的集合；v(e)表示用户v和当前用户u的相似度(熟悉度)；w(e)表示边类型的权重；d(e)表示边e的时间衰减参数。

9. 推荐算法小结

所有的推荐算法都可看成是基于特征向量空间和特征加权矩阵的推荐算法。

当特征向量的维度很大时，基于特征向量空间和特征加权矩阵的推荐算法计算复杂度将很大。

常见的做法是采用降维技术，比如使用minhash(simhash)。
另一种做法是先聚类，将N维的特征空间，转变成M维的特征空间(M <
N)。比如在ItemCF算法中，可对物品聚类，然后采用M类的物品作为特征。当然降维后需要计算权值矩阵。
另一种极致做法：抛弃权值矩阵，在分类的基础上，直接根据类别推荐。即基于特征向量的匹配。

基于特征匹配的算法框架(用户或物品均可)：