文本相似度分析

最新推荐文章于 2023-06-29 04:26:54 发布

1632401541

最新推荐文章于 2023-06-29 04:26:54 发布

阅读量1.8k

点赞数 2

分类专栏： Ĵ机器学习文本相似度计算

本文链接：https://blog.csdn.net/qq_29296685/article/details/83720924

版权

Ĵ机器学习同时被 2 个专栏收录

14 篇文章 5 订阅

订阅专栏

文本相似度计算

1 篇文章 0 订阅

订阅专栏

1 算法小结

相信有些人在闲暇时间喜欢读小说，至于什么小说在这就不一而论了。就拿我来说最近读的“一寸山河一寸血”和“混在三国当军阀”这两本书，本人感觉很相似，但具体相似多少就需要量化，因此想通过电脑来分析一下。接下来就不废话直接上原理和具体算法。

用到算法的概述：通过TF-IDF计算文本的关键词，如果某个词很重要，它应该在这篇文章中多次出现，我们进行”词频”（Term Frequency，缩写为TF）统计；另外要对每个词分配一个”重要性”权重。最常见的词（”的”、”是”、”在”）给予最小的权重，较常见的词（”一个”）给予较小的权重，较少见的词给予较大的权重。这个权重叫做”逆文档频率，它的大小与一个词的常见程度成反比。知道了”词频”（TF）和”逆文档频率”（IDF）以后，将这两个值相乘，就得到了一个词的TF-IDF值。得到tf-idf通过token2id得到特征数(可以用来计算的特征)然后计算稀疏矩阵相似度，从而建立索引，最后计算相似度结果。(TF-IDF算法就不详细及介绍哈，这个很多可以查到）

2 具体的步骤：

详细过程：1）读取文档(1-6分析文档)；2）对要计算的多篇文档进行分词；3）对文档进行整理成指定格式，方便后续进行计算；4）计算出词语的频率；5）对频率低的词语进行过滤(看数据量决定)；6）通过语料库建立词典；7）加载要对比的文档(计算要分析的文档7-13)；8）将要对比的文档通过doc2bow转化为稀疏向量；9）对稀疏向量进行进一步处理，得到新语料库；10）将新语料库通过tfidfmodel进行处理，得到tfidf；11）通过token2id得到特征数(可以用来计算的特征)；12）稀疏矩阵相似度，从而建立索引；13）得到最终相似度结果

3 具体实例

import jieba
from gensim import corpora,models,similarities
from collections import defaultdict
doc1 = 'C:/Users/test2/Desktop/hzsgdjf.txt'
d1 = open(doc1,'r',encoding="utf-8").read()
data1 = jieba.cut(d1)
list1 = []
list = []
for i in data1:
    list1.append(i)
list = [list1]
frequency = defaultdict(int)#如果键不存在则返回N/A,而不是报错,获取分词后词的个数
for i in list:
    for j in i:
        frequency[j] +=1
#创建词典
dictionary = corpora.Dictionary(list)
#词典保存到本地
dictionary.save('C:/Users/test2/Desktop/dic1.txt')
doc3 = 'C:/Users/test2/Desktop/ycshycx.txt'
d3 = open(doc3,'r',encoding="utf-8").read()
data3 = jieba.cut(d3)
data31 = []
for i in data3:
    data31.append(i)
new_doc = data31
#稀疏向量.dictionary.doc2bow(doc)是把文档doc变成一个稀疏向量，[(0, 1), (1, 1)]，表明id为0,1的词汇出现了1次，至于其他词汇，没有出现。
new_vec = dictionary.doc2bow(new_doc)
#获取语料库
corpus = [dictionary.doc2bow(i) for i in list]
tfidf = models.TfidfModel(corpus)
#特征数
featureNUM = len(dictionary.token2id.keys())
#通过TfIdf对整个语料库进行转换并将其编入索引，以准备相似性查询
index = similarities.SparseMatrixSimilarity(tfidf[corpus],num_features=featureNUM)
#计算向量相似度
sim = index[tfidf[new_vec]]
print(sim)

以上程序可以在jupyter中实现，可以实现简单文本相似度的计算。

1632401541

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
文本相似度分析

1 算法小结相信有些人在闲暇时间喜欢读小说，至于什么小说在这就不一而论了。就拿我来说最近读的“一寸山河一寸血”和“混在三国当军阀”这两本书，本人感觉很相似，但具体相似多少就需要量化，因此想通过电脑来分析一下。接下来就不废话直接上原理和具体算法。用到算法的概述：通过TF-IDF计算文本的关键词，如果某个词很重要，它应该在这篇文章中多次出现，我们进行”词频”（Term Freq...
复制链接

扫一扫