《A novel way of computing similarities between nodes of a graph, with application...》论文阅读笔记

A novel way of computing similarities between nodes of a graph, with application to collaborative recommendation(提出新的计算相似度的方法)

Abstract

  主要是提出了描述加权、无向图的节点之间的相似性,基于数据库随机遍历的马尔科夫链模型。在路径增加或路径长度减少具有良好的特性。
  模型符合统计关系学习框架和连接分析范式,可用于计算文档或词的相似性。更一般地还可应用于其他数据库或web挖掘任务。
主要介绍了各种相似度计算


A Markov-chain model of database navigation

  首先在基于图的算法中,若两用户的兴趣相近则两个用户之间存在大量的段路径相连。

Laplacian matrix

拉普拉斯矩阵应用:

图论的数学领域中的拉普拉斯矩阵(也被称为导纳矩阵,吉尔霍夫矩阵或离散拉普拉斯)是图的矩阵表示。
拉普拉斯矩阵 结合 吉尔霍夫理论可以用来计算图的最小生成树的个数。拉普拉斯矩阵还可用来寻找图的其他属性:谱图理论spectral graph theory.
黎曼几何的Cheeger不等式有涉及了拉普拉斯矩阵的离散模拟。这或许是谱图理论中最重要的定理也是在算法应用中最有用的facts.它通过拉普拉斯矩阵的第二特征值来近似图的最小割。

拉普拉斯矩阵是度矩阵和邻接矩阵的差。度矩阵是一个对角矩阵,其包含了每个顶点的度。在处理有向图时,根据应用来选择入度或出度。

性质

  • 是对称半正定矩阵
  • 最小特征值是0,对应特征向量是1
  • 有n个非负特征值

  给定一个有n个顶点的图 G=(V,E),其拉普拉斯矩阵被定义为 L = D − A L=D-A L=DA
  D——图的度矩阵(包含每个顶点的度的对角矩阵)
  A——图的邻接矩阵

随机游走模型

类似于PageRank的随机游走方法,其中概率矩阵 p i j = P ( s ( t + 1 ) = j ∣ s ( t ) = i ) = a i j a i p_{ij}=P(s(t+1)=j|s(t)=i)=\frac{a_{ij}}{a_i} pij=P(s(t+1)=js(t)=i)=aiaij
其中 s ( t ) = i s(t)=i s(t)=i表示在t时刻在i顶点
每个时间的状态仅由上一个状态决定,与再之前的状态无关

马尔科夫链的三个基本量:平均首次通过时间、平均通勤时间和拉普拉斯矩阵的伪逆

平均首次通过时间m(k|i) 定义为:从状态 i ≠ k i\neq k i̸=k开始的随机游走,第一次进入状态k的平均步数。
平均通勤时间 n ( i , j ) n(i,j) n(i,j) 定义为:从状态 i ≠ k i\neq k i̸=k开始的随机游走,第一次进入状态k最后返回到i的平均步数。即 n ( i , j ) = m ( j ∣ i ) + m ( i ∣ j ) n(i, j)=m(j|i)+m(i|j) n(i,j)=m(ji)+m(ij)
n ( i , j ) \sqrt{n(i,j)} n(i,j) 被称为欧几里得通勤时间距离

补充:

  • 范数:表示某点到空间零点的距离,用 ∣ ∣ X ∣ ∣ ||X|| X表示
  • 赋范空间(度量空间):赋予范数(距离)的集合
  • 线性赋范空间(线性度量空间):在赋范空间(度量空间)加上线性结构
  • 内积空间:克服范数空间向量夹角的缺陷 ( x , y ) (x,y) (x,y)为内积
  • 欧几里得空间:有限维的内积空间构成
  • Hilbert空间:内积空间+完备性
  • Banach空间:线性赋范空间+完备性
  • 完备性:在极限运算中,取值不能超出空间

实验方法

  采用两种标注的评分算法:余弦定理和最近邻

评分算法

 参考方法

  • 最大频率算法:根据观看电影用户数量对电影进行排序

 基于Markov(马尔可夫)模型的五种评分算法

  • 平均通勤时间(正常和基于PCA的):通过公式来对元素进行排序(PCA降为后保持尽可能多的方差)
  • 基于欧几里德通勤时间距离(ECTD)(PAC CT)的主成分分析(文献中的方法):基于拉普拉斯伪逆的特征向量去合成,节点映射到一个新的欧几里得空间,以保持尽量可能夺得方差。见文献M. M. Saerens, F. Fouss, L. Yen, and P. Dupont. The principal components analysis of a graph, and its relationships to spectral clustering.
  • 平均首次通过实践(单程和回程):单向根据公式计算;返程讲 m ( i ∣ j ) 改 为 使 用 m ( j ∣ i ) m(i|j)改为使用m(j|i) m(ij)使m(ji)
  • 拉普拉斯矩阵的伪逆:

  四种标准技术

  • k近邻技术
  • 余弦系数
  • Katz方法:不仅考虑项目之间连接的数量,还要考虑项目之间间接连接的数量
  • 最短路径算法
直接法和间接法

直接法:直接用相似性计算所有项目的排名,顶部排名的电影首先推荐
间接法:通过用户间的相似性简介计算项目之间的相似性。


实验结果

直接法和间接法在movie-lens的数据库上拉普拉斯伪逆取得了最佳一致性程度。Dijkstra算法得到的结果最差因为到达几乎任何电影最短路径小于3。


结论

不能很好地适用于大型数据库,对于大型数据库依赖迭代公式和矩阵的稀疏性。
实验中使用的是显示反馈的数据movie-lens的电影评分数据集。使用拉普拉斯伪逆法计算相似度可以提高结果的一致性

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
经导师精心指导并认可、获 98 分的毕业设计项目!【项目资源】:微信小程序。【项目说明】:聚焦计算机相关专业毕设及实战操练,可作课程设计与期末大作业,含全部源码,能直用于毕设,经严格调试,运行有保障!【项目服务】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 经导师精心指导并认可、获 98 分的毕业设计项目!【项目资源】:微信小程序。【项目说明】:聚焦计算机相关专业毕设及实战操练,可作课程设计与期末大作业,含全部源码,能直用于毕设,经严格调试,运行有保障!【项目服务】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 经导师精心指导并认可、获 98 分的毕业设计项目!【项目资源】:微信小程序。【项目说明】:聚焦计算机相关专业毕设及实战操练,可作课程设计与期末大作业,含全部源码,能直用于毕设,经严格调试,运行有保障!【项目服务】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 经导师精心指导并认可、获 98 分的毕业设计项目!【项目资源】:微信小程序。【项目说明】:聚焦计算机相关专业毕设及实战操练,可作课程设计与期末大作业,含全部源码,能直用于毕设,经严格调试,运行有保障!【项目服务】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值