A novel way of computing similarities between nodes of a graph, with application to collaborative recommendation(提出新的计算相似度的方法)
Abstract
主要是提出了描述加权、无向图的节点之间的相似性,基于数据库随机遍历的马尔科夫链模型。在路径增加或路径长度减少具有良好的特性。
模型符合统计关系学习框架和连接分析范式,可用于计算文档或词的相似性。更一般地还可应用于其他数据库或web挖掘任务。
主要介绍了各种相似度计算
A Markov-chain model of database navigation
首先在基于图的算法中,若两用户的兴趣相近则两个用户之间存在大量的段路径相连。
Laplacian matrix
拉普拉斯矩阵应用:
图论的数学领域中的拉普拉斯矩阵(也被称为导纳矩阵,吉尔霍夫矩阵或离散拉普拉斯)是图的矩阵表示。
拉普拉斯矩阵 结合 吉尔霍夫理论可以用来计算图的最小生成树的个数。拉普拉斯矩阵还可用来寻找图的其他属性:谱图理论spectral graph theory.
黎曼几何的Cheeger不等式有涉及了拉普拉斯矩阵的离散模拟。这或许是谱图理论中最重要的定理也是在算法应用中最有用的facts.它通过拉普拉斯矩阵的第二特征值来近似图的最小割。
拉普拉斯矩阵是度矩阵和邻接矩阵的差。度矩阵是一个对角矩阵,其包含了每个顶点的度。在处理有向图时,根据应用来选择入度或出度。
性质:
- 是对称半正定矩阵
- 最小特征值是0,对应特征向量是1
- 有n个非负特征值
给定一个有n个顶点的图 G=(V,E),其拉普拉斯矩阵被定义为
L
=
D
−
A
L=D-A
L=D−A
D——图的度矩阵(包含每个顶点的度的对角矩阵)
A——图的邻接矩阵
随机游走模型
类似于PageRank的随机游走方法,其中概率矩阵
p
i
j
=
P
(
s
(
t
+
1
)
=
j
∣
s
(
t
)
=
i
)
=
a
i
j
a
i
p_{ij}=P(s(t+1)=j|s(t)=i)=\frac{a_{ij}}{a_i}
pij=P(s(t+1)=j∣s(t)=i)=aiaij
其中
s
(
t
)
=
i
s(t)=i
s(t)=i表示在t时刻在i顶点
每个时间的状态仅由上一个状态决定,与再之前的状态无关
马尔科夫链的三个基本量:平均首次通过时间、平均通勤时间和拉普拉斯矩阵的伪逆
平均首次通过时间m(k|i) 定义为:从状态 i ≠ k i\neq k i̸=k开始的随机游走,第一次进入状态k的平均步数。
平均通勤时间 n ( i , j ) n(i,j) n(i,j) 定义为:从状态 i ≠ k i\neq k i̸=k开始的随机游走,第一次进入状态k最后返回到i的平均步数。即 n ( i , j ) = m ( j ∣ i ) + m ( i ∣ j ) n(i, j)=m(j|i)+m(i|j) n(i,j)=m(j∣i)+m(i∣j)
n ( i , j ) \sqrt{n(i,j)} n(i,j)被称为欧几里得通勤时间距离
(补充:)
- 范数:表示某点到空间零点的距离,用 ∣ ∣ X ∣ ∣ ||X|| ∣∣X∣∣表示
- 赋范空间(度量空间):赋予范数(距离)的集合
- 线性赋范空间(线性度量空间):在赋范空间(度量空间)加上线性结构
- 内积空间:克服范数空间向量夹角的缺陷 ( x , y ) (x,y) (x,y)为内积
- 欧几里得空间:有限维的内积空间构成
- Hilbert空间:内积空间+完备性
- Banach空间:线性赋范空间+完备性
- 完备性:在极限运算中,取值不能超出空间
实验方法
采用两种标注的评分算法:余弦定理和最近邻
评分算法
参考方法
- 最大频率算法:根据观看电影用户数量对电影进行排序
基于Markov(马尔可夫)模型的五种评分算法
- 平均通勤时间(正常和基于PCA的):通过公式来对元素进行排序(PCA降为后保持尽可能多的方差)
- 基于欧几里德通勤时间距离(ECTD)(PAC CT)的主成分分析(文献中的方法):基于拉普拉斯伪逆的特征向量去合成,节点映射到一个新的欧几里得空间,以保持尽量可能夺得方差。见文献M. M. Saerens, F. Fouss, L. Yen, and P. Dupont. The principal components analysis of a graph, and its relationships to spectral clustering.
- 平均首次通过实践(单程和回程):单向根据公式计算;返程讲 m ( i ∣ j ) 改 为 使 用 m ( j ∣ i ) m(i|j)改为使用m(j|i) m(i∣j)改为使用m(j∣i)
- 拉普拉斯矩阵的伪逆:
四种标准技术
- k近邻技术
- 余弦系数
- Katz方法:不仅考虑项目之间连接的数量,还要考虑项目之间间接连接的数量
- 最短路径算法
直接法和间接法
直接法:直接用相似性计算所有项目的排名,顶部排名的电影首先推荐
间接法:通过用户间的相似性简介计算项目之间的相似性。
实验结果
直接法和间接法在movie-lens的数据库上拉普拉斯伪逆取得了最佳一致性程度。Dijkstra算法得到的结果最差因为到达几乎任何电影最短路径小于3。
结论
不能很好地适用于大型数据库,对于大型数据库依赖迭代公式和矩阵的稀疏性。
实验中使用的是显示反馈的数据movie-lens的电影评分数据集。使用拉普拉斯伪逆法计算相似度可以提高结果的一致性