gensim 理论篇

最新推荐文章于 2024-07-16 15:14:07 发布

张小彬的代码人生

最新推荐文章于 2024-07-16 15:14:07 发布

阅读量2.2k

点赞数 3

分类专栏： NLP 文章标签： gensim 自然语言处理 LSA tfidf

本文链接：https://blog.csdn.net/zhangxb35/article/details/73294603

版权

gensim是一个用于处理文本相似度的Python库，支持TF-IDF、LSA等模型。向量空间模型通过词频表示文档，BoW忽略了词序；TF-IDF通过降低停用词权重提高文档代表性。LSA使用SVD对term-document矩阵进行低秩逼近，揭示潜在语义。通过Truncated SVD和PCA实现数据降维，用于文档和单词的相似度计算及聚类。

摘要由CSDN通过智能技术生成

gensim 是 Radim Rehurek 写的一个用来处理文本相似度的 python 库。可以很方便的用 tfidf，LDA，LSA，word2vec 等模型，涵盖了 NLP 里常见的词袋模型，主题模型，词嵌入等。下面简单介绍一下这些概念。

Vector Space model

在自然语言处理中，我们经常需要表示一个文档。一种常见的做法是写成向量的形式，比如直接统计一下该文章的词频，那么向量的大小就是词表的大小。这种模型就是向量空间模型（VSM，Vector Space Model），后面要讲的 TFIDF，LSA 等基本都是向量空间模型。

举个例子，假设文档集合 $\text{D}$ 中的一个文档 $d$ ，可以用列向量

v d = [w 1, d, w 2, d, . . ., w N, d] T

$\mathbf{v}_d = [w_{1,d}, w_{2,d},...,w_{N,d}]^T$ 来表示其中

N $N$ 是词汇表（字典）的长度。

BoW

上面的列向量其实就是 Bag-Of-Word Model，即词袋模型。这种模型直接统计了词频，把一片文章打散成一个个的词，因此会忽略词与词之间的顺序。这种做法显然是有代价的，比如“小明爱小花”跟“小花爱小明”的 BoW 表示是一样的。但是反过来讲，这样做也会简化模型。重要的是这种表示方法，可以把不定长的文档，用定长的向量表示出来，做起来后续的分类聚类等任务很方便。

其实除了在 NLP 领域，在 CV 里也经常用视觉词袋模型。比如我们用 SIFT 特征提取器，可以对图片提取比如 128 的特征。假如我们把图片切分成 100 个小 patch，每个都提取出来一个 SIFT 特征，那么最后得到的特征维度非常大。

可以考虑把训练集里的所有图片 patch 聚成 N 个类，这样每个 patch 都只用一个簇的 id 来表示，最后一张图片的维度就是 N，是图片 patch 的直方图表示。聚类的簇的个数 N 相当于词典的大小，每个簇都是一个词。

TF-IDF

前面的 BoW 模型，可能会给那些经常出现却没什么意义的词较大的权重，比如 “The，a，of” 之类的停词等。这些词无法代表这个文档，因此要降低这些词的权重，提高那些不怎么在其他文档里出现，但是却在这篇文档里反复出现的词。

TF-IDF 就是一种非常好的，也很常见的模型，可以看做是前面的词袋模型的拓展。TF-IDF 分成两个部分，

TF（term frequency）就是词频，和 BoW 说的是一个东西，就是数一下这篇文章有多少个这个词。
IDF（inverse document frequency）则是词的逆文档频率，就是有多少文章出现了该词，然后取个倒数。

假如用 $w_{t,d}$ 表示第 $t$ 个词汇在文档 $d$ 中的权重，定义 TF-IDF 计算公式如下，

w t, d = t f t, d \cdot log 2 | D | | { d ' \in D | t \in d ' } |

$w_{t, d} = \rm{tf}_{t, d} \cdot \log_2 \frac{|D|}{|\{d' \in D | t \in d'\}|}$

其中 $\rm{tf}_{t,d}$ 是局部参数（local parameter)
- 表示在文档 $d$ 中词汇 $t$ 的词频。
- 当然，也有别的做法，比如用 0，1 布尔值，或者用 log 平滑一下之类的。
$\log_2 \frac{|D|}{|\{d' \in D | t \in d'\}|}$ 是全局参数（global parameter）
- $|D|$ 表示文档的数量， |{ d′∈D|t∈d′}