系列文章
✓ 词向量
✗Adam,sgd
✗ 梯度消失和梯度爆炸
✗初始化的方法
✗ 过拟合&欠拟合
✗ 评价&损失函数的说明
✗ 深度学习模型及常用任务说明
✗ RNN的时间复杂度
✗ neo4j图数据库
分词、词向量
TfidfVectorizer
基本介绍
- TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
- 比如:为了获得一篇文档的关键词,我们可以如下进行
- 对给定文档,我们进行"词频"(Term Frequency,缩写为TF)
- 给每个词计算一个权重,这个权重叫做"逆文档频率"(Inverse Document Frequency,缩写为IDF),它的大小与一个词的常见程度成反比。
算法明细
- 基本步骤
- 1、计算词频。考虑到文章有长短之分,为了便于不同文章的比较,进行"词频"标准化。
词频:TF = 文章中某词出现的频数
词频标准化: - 2、计算逆文档频率。如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0。
逆文档频率:
其中,语料库(corpus),是用来模拟语言的使用环境。 - 3、计算TF-IDF。可以看到,TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比
T F − I D F = T F ∗ I D F TF-IDF = TF * IDF
- 1、计算词频。考虑到文章有长短之分,为了便于不同文章的比较,进行"词频"标准化。