中文文本相似度算法分析与研究之改进算法----一种结合文本主题网络构建和语义分析的文本相似计算方法

提出一种新的的计算方法,该方法在计算量和内存消耗上会有所增大,但就其文本相似度计算精确度上来说,可以提高一个层次。
传统的基于语义分析的文本相似度计算方法,一般首先是根据某一语义词典,基于词语间的相似度来计算句子间的相似度,然后把句子组合成文本,综合计算文本之间的
相似度。这里面涉及到预处理操作非常庞大,对于大规模的长文本之间的相似性计算,运算量将非常之大,运算速度将受到很大的影响。基于以上原因,本节将根据语言网络相关理论,结合语义分析来对文本相似度作计算。
根据语言网络理论,可以用文本主题网络G 来表示一个文本D,也就是文本主题网络G 可以表示文本D 的主题,那么,通过这样的语言网络表示整个文本的主题网络,整个文本D 就是由一系列的主题连通子图来表示的。连通子图中的中心高频词和连接两个子图的相对低频词,就是对G 具有关键作用的词语,可以用来表征文本的特征。

如下文本主题网络图中,中心词b,d,g 和连接词f 则是G 的特征词。


            文本主题网络图

本方法中将根据文本主题网络图来提取文本特征向量,进而结合语义分析来计算文本间的相似性。

结合文本主题网络和语义分析的文本相似度计算,一方面通过文本主题网络来抽取文本的特征向量,特别通过计算文本特征词综合权值,来选取前TOP 的特征词作为特征向量,其他特征向量的抽取方法,能够大大降低文本特征向量的维度,计算量进而减小,提高了文本相似度的计算性能。在最终的文本相似度计算上,结合语义相似度来综合计算文本间的相似度,进一步提高了文本相似度计算的精确度。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值