python文本相似度计算

最新推荐文章于 2024-06-13 20:56:20 发布

Michael930905

最新推荐文章于 2024-06-13 20:56:20 发布

阅读量9.7k

点赞数 5

文章标签： python 自然语言

本文链接：https://blog.csdn.net/github_39281554/article/details/73656266

版权

本文介绍了使用Python进行文本相似度计算，包括分词、去停用词、词袋模型、TF-IDF模型以及LSI模型的构建。通过实例展示了在高血压和iOS主题文本中，不同模型如何有效区分文本相似度，证实了LSI模型在减少维度和捕捉潜在主题方面的优势。

摘要由CSDN通过智能技术生成

步骤

分词、去停用词
词袋模型向量化文本
TF-IDF模型向量化文本
LSI模型向量化文本
计算相似度

理论知识

两篇中文文本，如何计算相似度？相似度是数学上的概念，自然语言肯定无法完成，所有要把文本转化为向量。两个向量计算相似度就很简单了，欧式距离、余弦相似度等等各种方法，只需要中学水平的数学知识。

那么如何将文本表示成向量呢？
* 词袋模型
最简单的表示方法是词袋模型。把一篇文本想象成一个个词构成的，所有词放入一个袋子里，没有先后顺序、没有语义。
例如：
John likes to watch movies. Mary likes too.
John also likes to watch football games.
这两个句子，可以构建出一个词典，key为上文出现过的词，value为这个词的索引序号
{“John”: 1, “likes”: 2,”to”: 3, “watch”: 4, “movies”: 5,”also”: 6, “football”: 7, “games”: 8,”Mary”: 9, “too”: 10}
那么，上面两个句子用词袋模型表示成向量就是：
[1, 2, 1, 1, 1, 0, 0, 0, 1, 1]
[1, 1,1, 1, 0, 1, 1, 1, 0, 0]
相对于英文，中文更复杂一些，涉及到分词。准确地分词是所有中文文本分析的基础，本文使用结巴分词，完全开源而且分词准确率相对有保障。

TF-IDF模型
词袋模型简单易懂，但是存在问题。中文文本里最常见的词是“的”、“是”、“有”这样的没有实际含义的词。一篇关于足球的中文文本，“的”出现的数量肯定多于“足球”。所以，要对文本中出现的词赋予权重。
一个词的权重由TF * IDF 表示，其中TF表示词频，即一个词在这篇文本中出现的频率；IDF表示逆文档频率，即一个词在所有文本中出现的频率倒数。因此，一个词在某文本中出现的越多，在其他文本中出现的越少，则这个词能很好地反映这篇文本的内容，权重就越大。
回过头看词袋模型，只考虑了文本的词频，而TF-IDF模型则包含了词的权重，更加准确。文本向量与词袋模型中的维数相同，只是每个词的对应分量值换成了该词的TF-IDF值。
LSI模型
TF-IDF模型足够胜任普通的文本分析任务，用TF-IDF模型计算文本相似度已经比较靠谱了，但是细究的话还存在不足之处。实际的中文文本，用TF-IDF表示的向量维数可能是几百、几千，不易分析计算。此外，一些文本的主题或者说中心思想，并不能很好地通过文本中的词来表示，能真正概括这篇文本内容的词可能没有直接出现在文本中。
因此，这里引入了Latent Semantic Indexing（LSI）从文本潜在的主题来进行分析。LSI是概率主题模型的一种，另一种常见的是LDA，核心思想是：每篇文本中有多个概率分布不同的主题；每个主题中都包含所有已知词，但是这些词在不同主题中的概率分布不同。LSI通过奇异值分解的方法计算出文本中各个主题的概率分布，严格的数学证明需要看相关论文。假设有5个主题，那么通过LSI模型，文本向量就可以降到5维，每个分量表示对应主题的权重。

python实现

分词上使用了结巴分词，词袋模型、TF-IDF模型、LSI模型的实现使用了gensim库。

import jieba.posseg as pseg
import codecs
from gensim import corpora, models, similarities

构建停用词表

stop_words = '/Users/yiiyuanliu/Desktop/nlp/demo/stop_words.txt'
stopwords = codecs.open(stop_words,'r',encoding='utf8').readlines()
stopwords = [ w.strip() for w in stopwords ]