gensim文本相似度比较浅析探究

最新推荐文章于 2020-11-25 15:00:01 发布

迷迷糊糊也好

最新推荐文章于 2020-11-25 15:00:01 发布

阅读量1.2k

点赞数

分类专栏：神经网络学习文章标签： gensim 文档相似度

本文链接：https://blog.csdn.net/qq_31150463/article/details/90145468

版权

神经网络学习专栏收录该内容

49 篇文章 0 订阅

订阅专栏

这篇文章不是复制粘贴代码叫你怎么生成向量，怎么用余弦相似度计算文档的相似度（虽然可能也有这样的功能），而是尝试探究文档相似度比较的背后发生了什么。
也许从很多百度得到的资料，明白了两个向量是如何计算相似度的，很简单：cos(a)=(A.B)/(|A|.|B|).很简单不是吗？但是这里有个问题，不同文档，分词后它的词向量个数不同，比如：
this is bee
bee
这两个文档一个有三个词，一个两个词，对应的corpus如下：
假设生成的词典为：
this 0
is 1
bee 2
this is bee—>[(0,1),(1,1),(2,1)]
bee----------->[(0,1)]
忽略序号，对应的运算向量分别是[1,1,1]和[1]，两个不同维度的向量，或者说在不同维度空间的向量怎么计算相似度？
本文对此试着做一下探究，错误之处请知道的大侠指点，万分感谢。
我还是以网上大家都复制粘贴的例子为例吧
假设我们的文档如下，有9篇，封装在列表中：

texts = [['human', 'interface', 'computer'],
['survey', 'user', 'computer', 'system', 'response', 'time'],
['eps', 'user', 'interface', 'system'],
['system', 'human', 'system', 'eps'],
['user', 'response', 'time'],
['trees'],
['graph', 'trees'],
['graph', 'minors', 'trees'],
['graph', 'minors', 'survey']]

现在生成这些文档编码用的的词典文件，并且显示其内容供我们分析：

dictionary = corpora.Dictionary(texts)
for w,v in dictionary.token2id.items():
    print(w,v)

结果如下:

computer 0
human 1
interface 2
response 3
survey 4
system 5
time 6
user 7
eps 8
trees 9
graph 10
minors 11

现在我们

生成每一个文档词向量和向量空间转换后的词向量，显示数据并对比，序号参照前面的dictionary

corpus = [dictionary.doc2bow(text) for text in texts]
tfidf = models.TfidfModel(corpus)
for i in corpus:
    print(i)
    print(tfidf[i])`

结果分别如下，可见格式一致，只是表示向量的数值从整数型的次数改成了tfidf数值：

[(0, 1), (1, 1), (2, 1)]
[(0, 0.5773502691896257), (1, 0.5773502691896257), (2, 0.5773502691896257)]
[(0, 1), (3, 1), (4, 1), (5, 1), (6, 1), (7, 1)]
[(0, 0.44424552527467476), (3, 0.44424552527467476), (4, 0.44424552527467476), (5, 0.3244870206138555), (6, 0.44424552527467476), (7, 0.3244870206138555)]
[(2, 1), (5, 1), (7, 1), (8, 1)]
[(2, 0.5710059809418182), (5, 0.4170757362022777), (7, 0.4170757362022777), (8, 0.5710059809418182)]
[(1, 1), (5, 2), (8, 1)]
[(1, 0.49182558987264147), (5, 0.7184811607083769), (8, 0.49182558987264147)]
[(3, 1), (6, 1), (7, 1)]
[(3, 0.6282580468670046), (6, 0.6282580468670046), (7, 0.45889394536615247)]
[(9, 1)]
[(9, 1.0)]
[(9, 1), (10, 1)]
[(9, 0.7071067811865475), (10, 0.7071067811865475)]
[(9, 1), (10, 1), (11, 1)]
[(9, 0.5080429008916749), (10, 0.5080429008916749), (11, 0.695546419520037)]

从结果还可以看出，每篇文档的词向量按照词典的序号顺序排列
下面我们开始重点，文档相似度的比较。我们假设我们要查询的文档为：
search_doc=[‘computer’,‘user’,‘interface’,‘system’]
我们将之转换为词向量并进一步转换为tfidf向量，打印出来，注意比较相同序号的tfidf值是否一样：

search_doc=['computer','user','interface','system']
search_corpus=dictionary.doc2bow(search_doc)
search_tfidf=tfidf[search_corpus]

print(search_corpus)
print(search_tfidf)

结果如下：

[(0, 1), (2, 1), (5, 1), (7, 1)]
[(0, 0.5710059809418182), (2, 0.5710059809418182), (5, 0.4170757362022777), (7, 0.4170757362022777)]

好吧，发现即使是同一序号的词，tfidf也不一样，很显然，同一词在同一文档和不同文档中出现的频率不一样，所以tfidf不一样才是对的，不过显然在同一文档中TF次数只要一致，那么tfidf也会一致。
现在我们有了10和文档对应的词向量，分别是9个模型训练的文档和一个检索查询用的文档，为了方便观察，我再次把他们写出来如下：

[(0, 0.5773502691896257), (1, 0.5773502691896257), (2, 0.5773502691896257)]
[(0, 0.44424552527467476), (3, 0.44424552527467476), (4, 0.44424552527467476), (5, 0.3244870206138555), (6, 0.44424552527467476), (7, 0.3244870206138555)]
[(2, 0.5710059809418182), (5, 0.4170757362022777), (7, 0.4170757362022777), (8, 0.5710059809418182)]
[(1, 0.49182558987264147), (5, 0.7184811607083769), (8, 0.49182558987264147)]
[(3, 0.6282580468670046), (6, 0.6282580468670046), (7, 0.45889394536615247)]
[(9, 0.7071067811865475), (10, 0.7071067811865475)]
[(9, 0.5080429008916749), (10, 0.5080429008916749), (11, 0.695546419520037)]
[(4, 0.6282580468670046), (10, 0.45889394536615247), (11, 0.6282580468670046)]
#下面这个是待比较的文档
[(0, 0.5710059809418182), (2, 0.5710059809418182), (5, 0.4170757362022777), (7, 0.4170757362022777)]

现在开始将训练的语料数据生成索引，并且计算相似度：我们顺便打印一下每篇计算的相似度结果

indexs=similarities.MatrixSimilarity(tfidf[corpus])
sims=indexs[search_tfidf]

结果如下：
[0.6593409, 0.5243382, 0.67395216, 0.29966107, 0.19139352, 0.0, 0.0, 0.0, 0.0]
记住这个结果来验证我们的猜测。
我们知道不同文档词向量个数不一样，维度不一样，那么他们怎么计算相似度呢？
不妨先猜测一下，系统会不会把所有的文档放在同一个维度的向量空间里面计算相似度呢？如果这样的话，生成的词典有12个单词，那么就需要假设每一篇文档都要扩充到12个维度才可以比较。这样子的话，第一篇文档扩充后，文档向量的表示形式就从[(0, 0.5773502691896257), (1, 0.5773502691896257), (2, 0.5773502691896257)]变成如下格式：
[(0, 0.5773502691896257), (1, 0.5773502691896257), (2, 0.5773502691896257),(3,0),(4,0),(5,0),(6,0),(7,0),(8,0),(9,0),(10,0),(11,0)]
没有出现的词向量，tfidf值一律为0.
debug代码，查看index的数据，发现每一个文档的数据确实证实了我的猜测：
在这里插入图片描述
既然如此，我们就用计算余弦相似度的公式手工验证一下是否如此（说是手工计算，其实还是编程）：

import math
import numpy as np
data=[[(0, 0.5773502691896257), (1, 0.5773502691896257), (2, 0.5773502691896257)],
[(0, 0.44424552527467476), (3, 0.44424552527467476), (4, 0.44424552527467476), (5, 0.3244870206138555), (6, 0.44424552527467476), (7, 0.3244870206138555)],
[(2, 0.5710059809418182), (5, 0.4170757362022777), (7, 0.4170757362022777), (8, 0.5710059809418182)],
[(1, 0.49182558987264147), (5, 0.7184811607083769), (8, 0.49182558987264147)],
[(3, 0.6282580468670046), (6, 0.6282580468670046), (7, 0.45889394536615247)],
[(9, 0.7071067811865475), (10, 0.7071067811865475)],
[(9, 0.5080429008916749), (10, 0.5080429008916749), (11, 0.695546419520037)],
[(4, 0.6282580468670046), (10, 0.45889394536615247), (11, 0.6282580468670046)]]
test=[(0, 0.5710059809418182), (2, 0.5710059809418182), (5, 0.4170757362022777), (7, 0.4170757362022777)]
test_vec=np.array([0.5710059809418182,0,0.5710059809418182,0,0,0.4170757362022777,0,0.4170757362022777,0,0,0,0],dtype='float64')
for i in range(8):
    doc=data[i]
    doc_vec=[0,0,0,0,0,0,0,0,0,0,0,0]
    for vec in doc:
        index=vec[0]
        doc_vec[index]=vec[1]
    doc_vec=np.array(doc_vec,dtype='float64')
    AB=np.dot(doc_vec,test_vec)
    A=np.dot(doc_vec,doc_vec)
    B=np.dot(test_vec,test_vec)
    A=math.sqrt(A)
    B=math.sqrt(B)
    cos=AB/(A*B)
    print(cos)

结果证明完全符合猜想：
0.6593409136112901
0.524338177959694
0.6739521697286719
0.29966105904991336
0.19139353010235585
0.0
0.0
0.0
由此猜测，如果训练的语料数据庞大，生成的词典很大，那么运算时候的每篇文档的向量维度也会很大，运算量必然也会增加
知道了这个有什么用？用处很大，我们可以采用腾讯或谷歌的词向量工具，将每一个词的相似度大的词的向量重新组合成新的检索向量，扩大搜索范围，实现相关检索结果的有效聚类