中文文本相似度算法分析与研究之改进算法----一种结合文本主题网络构建和语义分析的文本相似计算方法

最新推荐文章于 2020-04-04 21:58:30 发布

Johline

最新推荐文章于 2020-04-04 21:58:30 发布

阅读量696

点赞数

分类专栏：文本相似度算法

文本相似度算法专栏收录该内容

6 篇文章 1 订阅

订阅专栏

提出一种新的的计算方法，该方法在计算量和内存消耗上会有所增大，但就其文本相似度计算精确度上来说，可以提高一个层次。
传统的基于语义分析的文本相似度计算方法，一般首先是根据某一语义词典，基于词语间的相似度来计算句子间的相似度，然后把句子组合成文本，综合计算文本之间的
相似度。这里面涉及到预处理操作非常庞大，对于大规模的长文本之间的相似性计算，运算量将非常之大，运算速度将受到很大的影响。基于以上原因，本节将根据语言网络相关理论，结合语义分析来对文本相似度作计算。
根据语言网络理论，可以用文本主题网络G 来表示一个文本D，也就是文本主题网络G 可以表示文本D 的主题，那么，通过这样的语言网络表示整个文本的主题网络，整个文本D 就是由一系列的主题连通子图来表示的。连通子图中的中心高频词和连接两个子图的相对低频词，就是对G 具有关键作用的词语，可以用来表征文本的特征。

如下文本主题网络图中，中心词b,d,g 和连接词f 则是G 的特征词。

文本主题网络图

本方法中将根据文本主题网络图来提取文本特征向量，进而结合语义分析来计算文本间的相似性。

结合文本主题网络和语义分析的文本相似度计算，一方面通过文本主题网络来抽取文本的特征向量，特别通过计算文本特征词综合权值，来选取前TOP 的特征词作为特征向量，其他特征向量的抽取方法，能够大大降低文本特征向量的维度，计算量进而减小，提高了文本相似度的计算性能。在最终的文本相似度计算上，结合语义相似度来综合计算文本间的相似度，进一步提高了文本相似度计算的精确度。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
中文文本相似度算法分析与研究之改进算法----一种结合文本主题网络构建和语义分析的文本相似计算方法

提出一种新的的计算方法，该方法在计算量和内存消耗上会有所增大，但就其文本相似度计算精确度上来说，可以提高一个层次。传统的基于语义分析的文本相似度计算方法，一般首先是根据某一语义词典，基于词语间的相似度来计算句子间的相似度，然后把句子组合成文本，综合计算文本之间的相似度。这里面涉及到预处理操作非常庞大，对于大规模的长文本之间的相似性计算，运算量将非常之大，运算速度将受到很大的影响。基于以上原
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。