图的向量化表示概述

  图的向量化表示,意即通过多维向量空间中的一点来表示一个图的特征,方便使用机器学习的方法对其进行分类操作。
  首先讨论怎么从一副普通的图像中提取出特征图:
  原图是(a),然后对其做碎片化,得到图(b),对原图做二值化得到图(c),图(b)和图(c)叠合得到图(d)。对于图(d)做下列定义:
  各个色块被定义为特征图的各个节点,节点编号集合是颜色集合{黑,蓝,棕,绿,灰,橙,粉,紫,红,白,黄};两个色块之间有公共边缘的就认为存在边,边的长度是公共边缘上像素点的个数,离散化表示为{短,中,长}。
  在我们的化学式检索中,这项工作变得更加简单:每一个原子(原子团)代表着一个节点,节点的编号自然就是这个原子(原子团)的名称;每一个化学键就是一条边,边的编号集合为{单,双,三,……}。至此,完成了特征图的提取。
在这里插入图片描述
得到特征图之后,需要将其表示为一个特征向量,典型的做法是图指纹的方法。

  1. Fingerprint的方法
    给定一个集合H=〖{h_i}〗_(1≤i≤n),包含了n个图的“部分”,任意图g就被转换成为了n维向量空间中的一点:
    g→(#(h_1,g),#(h_2,g),……,#(h_n,g))
    其中#(h_i,g)代表着每一个“部分”h_i在此图中出现的次数。这一方法的要点在于选取合适的H集合。在化学式检索工作中,可以考虑一些典型的官能团或特定结构来组成这个集合,不过这需要一定的化学研究。

  2. Embedding of Graphs via Label Frequencies的方法
    这个方法其实是Fingerprint方法的一个变式,减少了预操作,比较适合化学结构式检索来应用。在此办法中,集合H由以下几个部分组成:所有节点,任意两个节点之间连一个编号为e_1的边,任意两个节点之间连一个编号为e_2的边……计算这些“部分”或者说是小结构在此图中出现的次数,由此得到一个向量。此方法的好处在于,向量的维度分类前已经确定,不用随着研究目标的不同来改变集合H的形式,增加了特征提取的全面性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值