论文学习

Spectral Clustering in Heterogeneous Information Networks

基础知识

Heterogeneous Information Networks 异质信息网络

异质信息网络G=(V,E)包括不同类型的对象和关系,每个对象属于一个特定的对象类型, 每个关系属于一个特定的关系类型。比如说文献网络、社交媒体网络等。如下就是文献信息网络。

网络模式是异质信息网络的元模板,是定义于对象类型T的节点和来自关系R的边的有向图,表示为TG=(T,R)。网络模式作为一种网络模板,清楚地让我们了解网络中有多少种对象类型以及这些对象类型之间有怎样的关系。
在这里插入图片描述
如上就是异质文献信息网络模式,可以看出,作者和论文之间有写与被写的关系,论文和会议之间有发表于和发表的关系,论文和关键词之间有使用和被使用的关系,在论文和论文之间还存在着引用和被引用的关系。
元路径是定义在网络模式上的链接两类对象的一条路径

异质信息网络可以用于相似性度量、聚类分析、信息融合、排名分析、推荐系统等。

Spectral Clustering 谱聚类

方阵作为线性算子,它的所有特征值的全体统称为方阵的谱。方阵的谱半径为最大的特征值。矩阵A的谱半径是矩阵A^TA的最大特征值。
谱聚类是一种基于图论的聚类方法,通过对样本数据的拉普拉斯矩阵的特征向量进行聚类,从而达到对样本数据聚类的目的。谱聚类可以理解为将高维空间的数据映射到低维,然后在低维空间用其它聚类算法(如KMeans)进行聚类。即将带权无向图划分为两个或两个以上的最优子图,使子图内部尽量相似,而子图间距离尽量距离较远
换句话说,

  1. 首先要将数据转换为图,即所有的数据看做空间中的点,点点之间用边相连。距离较远的两个点,它们之间边的权重值较低,距离较近的两点之间边的权重值较高。
  2. 对这个图进行切图。
  3. 目标是要让切图后不同的子图间边权重和尽可能的低,而子图内的边权重和尽可能的高。即子图间距离尽量较远,子图内部尽量相似。

这样就完成了将原数据聚类为不同子集的过程。

作者信息

一作是香港大学的在读计算机博士Xiang Li,研究方向是数据挖掘和机器学习,主要是分类和聚类。

论文阅读笔记

研究目的

为了提高在HIN中对对象进行谱聚类的效果

  • 因为已知在谱聚类中主要影响性能的是相似矩阵的质量(即如果xi和xj在同一簇中,则sij就很大,否则,sij就很小)
  • 又已知在构造异质信息网络中的相似矩阵时,元路径比最短路径等方法有效
  • 所以作者考虑采用基于元路径构建的谱聚类来对异质信息网络进行聚类分析
贡献
  • 用元路径构造相似矩阵,并将相似性矩阵构造公式化为一个优化问题
  • 创建了一个SClump迭代算法解决这个优化问题,并在这个过程中学习了元路径的权重
方法

PathSim给出定义计算两个对象之间的相似性就是计算连接两个对象的路径实例数。
所以相似矩阵可定义为:
在这里插入图片描述
作者构建了一个相似度矩阵W

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值