推荐系统实践-第二章-利用用户行为

负江

于 2023-12-03 21:18:59 发布

阅读量70

点赞数

文章标签：人工智能机器学习算法推荐算法

本文链接：https://blog.csdn.net/Tab__/article/details/134755436

版权

本文是查看了此章节之后，对其中一些不理解和书中未深入涉及内容的扩展，而非书籍内容的忠实记录。

用户行为

线性反馈行为：如打分、点赞投币收藏。
隐形反馈行为：页面浏览行为。

召回率和准确率

准确率（Precision）和召回率（Recall）是评估分类模型（特别是在二元分类问题中）性能的两个关键指标。它们通常用于评估模型在预测正类（例如，预测一个邮件是否为垃圾邮件）方面的表现。理解这两个指标的区别对于评估模型的性能非常重要。

准确率 (Precision)：准确率是指模型正确预测为正类的样本占所有预测为正类样本的比例。换句话说，它回答了这样一个问题：“在所有被模型标记为正类的样本中，有多少是真正的正类？” 准确率的计算公式为：

$\text{Precision} = \frac{\text{True Positives (TP)}}{\text{True Positives (TP) + False Positives (FP)}}$

其中，True Positives (TP)是模型正确预测为正类的样本数量，False Positives (FP)是模型错误预测为正类的样本数量。
召回率 (Recall)：召回率是指模型正确预测为正类的样本占所有实际正类样本的比例。它关注于模型捕捉正类样本的能力。召回率的计算公式为：

$\text{Recall} = \frac{\text{True Positives (TP)}}{\text{True Positives (TP) + False Negatives (FN)}}$

其中，False Negatives (FN)是模型错误预测为负类的实际正类样本数量。

准确率和召回率之间通常存在一种折中关系（trade-off）。提高准确率通常会降低召回率，反之亦然。例如，一个非常严格的模型（只有在非常确定时才预测正类，因此预测较少）可能会有高准确率（因为它减少了错误预测正类的情况），但它可能错过很多实际的正类（因此有低召回率）。相反，一个更宽松的模型可能会有更高的召回率（因为它尽量捕捉所有可能的正类，预测的数量较多），但同时可能会增加错误预测为正类的情况（因此有低准确率）。

基于邻域的算法

基于用户的协同过滤算法

（1）找到和目标用户兴趣相似的用户集合。
（2）将该集合中用户喜欢的，但目标用户没有听说过的物品推荐给目标用户。
分为UserCF和User-IIF。

基于物品的协同过滤算法

(1)计算物品之间的相似度。
(2)根据物品的相似度和用户的历史行为给用户生成推荐列表。
分为ItemCF、ItemCF-IUF和ItemCF-norm。

Personal Rank

Personal Rank公式

PersonalRank算法是基于图的推荐算法，它是PageRank算法的一个变种，用于个性化推荐。在PageRank算法中，每个网页的重要性是通过网页之间的链接关系来确定的，而在PersonalRank算法中，给定一个用户，算法会从用户个人的角度出发，计算网络中每个物品对该用户的个性化重要性。

公式中的PR(v)代表顶点（可以是用户或物品）的PersonalRank值，即该顶点对特定用户的个性化重要性。公式的含义如下：

当 $\neq v_u )$ 时（即对于除了特定用户 $v_u$ 外的所有顶点）， $(PR (v))$ 的值是由邻居顶点（即直接链接到 $v$ 的所有顶点）的PersonalRank值和其出度（即从邻居顶点出发的链接数）的倒数相乘后再乘以一个阻尼系数 $\alpha$ 得来的。这个阻尼系数通常设置为0.85，模拟了一个随机网页浏览者继续点击下一个链接的概率。
当 $v = v_u )$ 时（即特定用户 $v_u $ 自己的顶点）， $PR (v)$ 除了上述的邻居顶点贡献外，还包括一个常数项 $\alpha )$ 。这个常数项代表了无论网络结构如何，用户自身都具有的基础重要性。

在个性化推荐系统中，PersonalRank算法可以模拟这样一个过程：从目标用户节点开始，以一定的概率随机游走到相邻的节点（如物品节点），然后继续游走或者以一定的概率跳回到初始的用户节点。算法迭代直到达到稳定状态，最终每个物品节点的PersonalRank值可以作为推荐的依据。

简单来说，PersonalRank算法通过模拟随机游走的方式来量化用户和物品节点的相关性，这样可以对每个物品进行排名，排名越高，物品就越可能被推荐给用户。

PersonalRank算法的公式可以通过矩阵运算来求解，这个过程与PageRank算法的求解相似。求解PersonalRank通常涉及到构建转移矩阵和随机游走的概念。

在图论中，我们可以构造一个转移矩阵 $M$ ，其中每个元素 $M_{ij}$ 表示从节点 $i$ 转移到节点 $j$ 的概率。对于无向图， $M$ 是一个对称矩阵。对于有向图， $M$ 的每列的和为1，每个元素 $M_{ij}$ 是节点 $i$ 的出度的倒数。

PersonalRank算法的迭代公式可以表示为：

$(1-\alpha) \cdot v + \alpha \cdot M \cdot PR$

其中：

$PR$ 是一个列向量，其每个元素代表图中每个节点的PersonalRank值。
$v$ 是一个列向量，只有目标用户节点的位置是1，其余都是0。
$\alpha$ 是阻尼因子，通常设置为0.85，表示继续游走的概率。
$M$ 是转移矩阵，表示从一个节点到另一个节点游走的概率。

要求解 $PR$ ，我们需要解下面的方程：

$(1-\alpha) \cdot v + \alpha \cdot M \cdot PR$
这个方程可以重写为：

$(1-\alpha) \cdot (I - \alpha \cdot M)^{-1} \cdot v$

其中 ( I ) 是单位矩阵。这个方程可以看作是线性方程组：

$\alpha \cdot M) \cdot PR = (1-\alpha) \cdot v$

这个线性方程组可以使用矩阵逆运算、迭代方法或者其他线性系统求解方法来求解 $PR$ 。在实际应用中，由于转移矩阵 $M$ 可能非常大，直接计算逆矩阵可能不切实际，因此通常使用迭代方法如幂迭代或雅可比迭代来求解 $PR$ 。这些方法从一个初始估计开始，逐渐逼近真实的 $PR$ 值，直到达到收敛条件为止。