文章转载自微信公众号“硬科技课堂”,经作者同意转载,若需转载请联系原作者。
01
社交网络数据是一种图,自然语言,是一种序列数据,那社交网络数据和自然语言是一回事吗?
表面看,确实是风马牛不相及,但它们之间至少存在两个方面的相似:
02
首先,从网络上任意一个节点出发,通过随机游走对网络上的节点进行采样,就可以形成一个由节点构成的序列,这个序列可以被看成是一种特殊的语言,这里的节点就相当于词汇表里的词,节点序列就相当于由词构成的句子。
03
这说的是形式上的相似,社交网络数据和自然语言还存在结构上的相似。
社交网络上,节点的结构性特征,是由节点的彼此连接形成的,你比如说,一个节点的邻域中存在哪些节点?它和哪些节点相邻?这些局部信息,就构成了节点在结构上的特征。
自然语言也有类似的结构特征,只不过这种结构特征,是体现在语义和语法上的。
如果一句话符合语言习惯,其实是语义和语法规则决定了一个词可以出现在一句话中的哪个位置?不能出现在哪个位置?换句话说,因为语义和语法上的要求,决定了一个词可以和哪些词搭配?在一句话中,和哪些词离的近,等等,这种结构上的特征和社交网络数据是相似的。
04
有了这种相似,自然语言处理的算法就有可能能够迁移到社交网络数据的处理上了。