TFIDF学习笔记

最新推荐文章于 2024-06-14 12:39:34 发布

YADA_NOYADA_NO

最新推荐文章于 2024-06-14 12:39:34 发布

from sklearn.feature_extraction.text import TfidfVectorizer
text=['The dog ate a sandwich and I ate a sandwich']
vectorizer = TfidfVectorizer(stop_words='english')
print(vectorizer.fit_transform(text).todense())
print(vectorizer.vocabulary_)

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
TFIDF学习笔记

由来TFIDF是一种用于信息检索与数据挖掘的常用加权技术。TF（term frequency）表示词频，其数值通常用某个词在文章中出现的频数归一化后的结果表示。很多单词可能在两个文档的频率一样，但是两个文档的长度差别很大，一个文档比另一个文档长很多倍。词频特征向量归一化来实现不同文档向量的可比性。式中，分子是该词在文件中的出现次数，而分母则是在文件中所有字词的出现次数之和。
复制链接

扫一扫

TFIDF学习笔记

由来

TFIDF是一种用于信息检索与数据挖掘的常用加权技术。

式中，分子是该词在文件中的出现次数，而分母则是在文件中所有字词的出现次数之和。

IDF（inverse document frequency）逆向文件频率。

它等于总文件数目除以包含该词语的文件数目，再对结果取对数。

当然是应用伟大的python 下的sklearn包，示例如下：

from sklearn.feature_extraction.text import TfidfVectorizer text=['The dog ate a sandwich and I ate a sandwich'] vectorizer = TfidfVectorizer(stop_words='english') print(vectorizer.fit_transform(text).todense()) print(vectorizer.vocabulary_)

“相关推荐”对你有帮助么？

`from sklearn.feature_extraction.text import TfidfVectorizer text=['The dog ate a sandwich and I ate a sandwich'] vectorizer = TfidfVectorizer(stop_words='english') print(vectorizer.fit_transform(text).todense()) print(vectorizer.vocabulary_)`