《A novel way of computing similarities between nodes of a graph, with application...》论文阅读笔记

最新推荐文章于 2021-09-09 22:01:10 发布

weixin_43249938

最新推荐文章于 2021-09-09 22:01:10 发布

阅读量217

点赞数

分类专栏：推荐系统相关系数

本文链接：https://blog.csdn.net/weixin_43249938/article/details/84344007

版权

推荐系统同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

Abstract

主要是提出了描述加权、无向图的节点之间的相似性，基于数据库随机遍历的马尔科夫链模型。在路径增加或路径长度减少具有良好的特性。
模型符合统计关系学习框架和连接分析范式，可用于计算文档或词的相似性。更一般地还可应用于其他数据库或web挖掘任务。
主要介绍了各种相似度计算

A Markov-chain model of database navigation

首先在基于图的算法中，若两用户的兴趣相近则两个用户之间存在大量的段路径相连。

Laplacian matrix

拉普拉斯矩阵应用：

图论的数学领域中的拉普拉斯矩阵（也被称为导纳矩阵，吉尔霍夫矩阵或离散拉普拉斯）是图的矩阵表示。
拉普拉斯矩阵结合吉尔霍夫理论可以用来计算图的最小生成树的个数。拉普拉斯矩阵还可用来寻找图的其他属性：谱图理论spectral graph theory.
黎曼几何的Cheeger不等式有涉及了拉普拉斯矩阵的离散模拟。这或许是谱图理论中最重要的定理也是在算法应用中最有用的facts.它通过拉普拉斯矩阵的第二特征值来近似图的最小割。

拉普拉斯矩阵是度矩阵和邻接矩阵的差。度矩阵是一个对角矩阵，其包含了每个顶点的度。在处理有向图时，根据应用来选择入度或出度。

性质：

是对称半正定矩阵
最小特征值是0，对应特征向量是1
有n个非负特征值

给定一个有n个顶点的图 G=(V,E)，其拉普拉斯矩阵被定义为 $L = D - A$
D——图的度矩阵（包含每个顶点的度的对角矩阵）
A——图的邻接矩阵

随机游走模型

类似于PageRank的随机游走方法，其中概率矩阵 $p_{ij}=P(s(t+1)=j|s(t)=i)=\frac{a_{ij}}{a_i}$
其中 $s (t) = i$ 表示在t时刻在i顶点
每个时间的状态仅由上一个状态决定，与再之前的状态无关

马尔科夫链的三个基本量：平均首次通过时间、平均通勤时间和拉普拉斯矩阵的伪逆

平均首次通过时间m(k|i) 定义为：从状态 $i\neq k$ 开始的随机游走，第一次进入状态k的平均步数。
平均通勤时间 $n (i, j)$ 定义为：从状态 $i\neq k$ 开始的随机游走，第一次进入状态k最后返回到i的平均步数。即 $n (i, j) = m (j ∣ i) + m (i ∣ j)$
$\sqrt{n(i,j)}$ 被称为欧几里得通勤时间距离

（补充：）

范数：表示某点到空间零点的距离，用 $∣ ∣ X ∣ ∣$ 表示
赋范空间（度量空间）：赋予范数（距离）的集合
线性赋范空间（线性度量空间）：在赋范空间（度量空间）加上线性结构
内积空间：克服范数空间向量夹角的缺陷 $(x, y)$ 为内积
欧几里得空间：有限维的内积空间构成
Hilbert空间：内积空间+完备性
Banach空间：线性赋范空间+完备性
完备性：在极限运算中，取值不能超出空间

实验方法

采用两种标注的评分算法：余弦定理和最近邻

评分算法

参考方法

最大频率算法：根据观看电影用户数量对电影进行排序

基于Markov（马尔可夫）模型的五种评分算法

平均通勤时间（正常和基于PCA的）：通过公式来对元素进行排序（PCA降为后保持尽可能多的方差）
基于欧几里德通勤时间距离（ECTD）（PAC CT）的主成分分析（文献中的方法）：基于拉普拉斯伪逆的特征向量去合成，节点映射到一个新的欧几里得空间，以保持尽量可能夺得方差。见文献M. M. Saerens, F. Fouss, L. Yen, and P. Dupont. The principal components analysis of a graph, and its relationships to spectral clustering.
平均首次通过实践（单程和回程）：单向根据公式计算；返程讲 $m (i ∣ j) 改为使用 m (j ∣ i)$
拉普拉斯矩阵的伪逆:

四种标准技术

k近邻技术
余弦系数
Katz方法:不仅考虑项目之间连接的数量，还要考虑项目之间间接连接的数量
最短路径算法

直接法和间接法

直接法：直接用相似性计算所有项目的排名，顶部排名的电影首先推荐
间接法：通过用户间的相似性简介计算项目之间的相似性。

实验结果

直接法和间接法在movie-lens的数据库上拉普拉斯伪逆取得了最佳一致性程度。Dijkstra算法得到的结果最差因为到达几乎任何电影最短路径小于3。

结论

不能很好地适用于大型数据库，对于大型数据库依赖迭代公式和矩阵的稀疏性。
实验中使用的是显示反馈的数据movie-lens的电影评分数据集。使用拉普拉斯伪逆法计算相似度可以提高结果的一致性

weixin_43249938

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《A novel way of computing similarities between nodes of a graph, with application...》论文阅读笔记

A novel way of computing similarities between nodes of a graph, with application to collaborative recommendation（提出新的计算相似度的方法）
复制链接

扫一扫

专栏目录