图相似度度量的关键技术研究 (博士论文) 吉林大学 ,2017

文章简介:

  1. 文章链接
  2. 作者单位:王旭 吉林大学
  3. 来源:博士论文 2017.12

正文

第一章

在这里插入图片描述
在这里插入图片描述
  通过计算俩个图之间的公共路径的条数,测量图的相似度。公共路径通过图的Tickets矩阵计算。矩阵中元素的和即为俩个图公共路径的条数。
  缺点:更新tickets矩阵的代价高。虽然文章的俩个算法简化了更新步骤,并且针对稀疏图和稠密图做了分析,但是矩阵相乘和相加的运算还是冗余的。

第二章

在这里插入图片描述
在这里插入图片描述在这里插入图片描述
  文章定义了广义树,目的是为了计算俩个广义树的序列的距离值,比较俩个图的相似度。定义广义树后,生成垂直广义树序列和层次广义树序列。这列以层次广义树序列为例介绍。

   如上图所示,生成的广义树的层次序列之间保留了原图的层次关系。通过计算每一个可能的三元组序列的距离值,最后推算出整个序列的距离值。等价于原图的相似度。

   缺点:必须要计算任何一对距离值,浪费空间和时间。可以用筛选的方法,仅评估有价值的序列对,比如文章最后提到剔除无用的顶点和边。

第三章 顺序维和空间维序列

在这里插入图片描述
在这里插入图片描述
  仍然和前几章的思路一样,都是把俩个图转变为树的结构,并且一直强调了每个节点出度和入度的信息,这也使得计算公共的序列更加精准。

  顺序维序列和空间维度序列是子集和全集的关系。顺序维序列表示的是有序树从根节点到叶节点的每一条路径,空间维序列是这些路径的集合,其中维度(m,n)中m表示顺序维序列的最大长度,n表示序列的个数。

  顺序序列和多维序列合称多维序列。

第四章多重序列的启发式算法

  结合了A* 算法,计算多个图之间的公共子序列(这是和前几章不同的地方)。从而计算多图的相似度。
在这里插入图片描述在这里插入图片描述
  计算俩个序列的公共子序列的个数,越多,越相似。在计算公共子序列个数的时候,套用了A* 搜索算法的思想,减少了搜索的空间。

文章总结

1. 解决问题

  图相似度度量中经常运用图编辑距离、度量公共路径等方法,但是都存在下面的劣势:
1.1 计算复杂度高
1.2 不能考虑到结构信息。比如顶点的出度和入度的数量
1.3 多个图之间的相似度度量吃力

2. 解决方法

  文章提出了将图表示为树的形式(广义树、有序树),让后通过树,写出从根节点到叶节点的路径,把路径表示成三元组序列。通过俩个树的序列,计算序列之间的距离。如果距离值越大,图间相似度越大。文章的主要贡献点是抓住了顶点的出度和入度对于相似度度量的重要性,因为顶点的度信息代表了结构信息。

3. 文章不足

  1. 我的看法:抓住度信息虽然一定程度上提高了计算相似度的准确性,但是在计算公共序列时,需要构造的矩阵空间过大,每个顶点都要考虑到,每一个顶点对都要被计算。对于那些顶点标号不同,应该设定筛选规则,仅计算有价值的序列,这样可以提高计算的速度。
  2. 作者的角度:
    2.1 度量信息越多,计算量增多。文章考虑到了顶点的出度和入度的信息。虽然明确了顶点的指向关系,让计算的结果更加准确,但是计算量却大幅度增加;
    2.2数据量的增多取决于数据集的质量,对于数据集中无用的信息可以剔除。根据数据集的特性,删除不必要的顶点和边,提高相似度的准确性;
    2.3考虑有环的图。文章是在有标签(顶点和边)、度信息(出度和入度)、无环的图中进行研究的,无法拓展到有环的情况。为了让度量结果更加准确,应该考虑有环图。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值