数据处理——CountVectorizer、TfidfTransformer、TfidfVectorizer

最新推荐文章于 2024-06-15 11:09:03 发布

黑桃5200

最新推荐文章于 2024-06-15 11:09:03 发布

阅读量2.2k

点赞数 1

分类专栏：机器学习算法

本文链接：https://blog.csdn.net/Heitao5200/article/details/86681991

版权

机器学习算法专栏收录该内容

38 篇文章 11 订阅

订阅专栏

1. CountVectorizer原理

CountVectorizer是通过fit_transform函数将文本中的词语转换为词频矩阵

1.1 举个栗子

from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer, TfidfTransformer#导入包
corpus = [
    'This is the first document.',
    'This is the second second document.',
    'And the third one.',
    'Is this the first document?',
]#文本数据
vectorizer = CountVectorizer()#初始化
count = vectorizer.fit_transform(corpus)#将文本中的词语转换为词频矩阵

print(vectorizer.get_feature_names())#看到所有文本的关键字

[‘and’, ‘document’, ‘first’, ‘is’, ‘one’, ‘second’, ‘the’, ‘third’, ‘this’]

print(vectorizer.vocabulary_)#将文本中出现的所有单词编号，如下：

{'this': 8, 'is': 3, 'the': 6, 'first': 2, 'document': 1, 'second': 5, 'and': 0, 'third': 7, 'one': 4}

print(count.toarray())#可看到词频矩阵的结果

[[0 1 1 1 0 0 1 0 1]
 [0 1 0 1 0 2 1 0 1]
 [1 0 0 0 1 0 1 1 0]
 [0 1 1 1 0 0 1 0 1]]

2. TfidfTransformer原理

统计CountVectorizer中每个词语的tf-idf权值
TF-IDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TF-IDF实际上是：TF * IDF。

2.1 举个栗子

transformer = TfidfTransformer()
tfidf_matrix = transformer.fit_transform(count)
print(tfidf_matrix.toarray())

[[ 0.          0.43877674  0.54197657  0.43877674  0.          0. 			  0.35872874  0.          0.43877674]
 [ 0.          0.27230147  0.          0.27230147  0.          0.85322574	  0.22262429  0.          0.27230147]
 [ 0.55280532  0.          0.          0.          0.55280532  0.		 	  0.28847675  0.55280532  0.        ]
 [ 0.          0.43877674  0.54197657  0.43877674  0.          0. 			  0.35872874  0.          0.43877674]]

3. TfidfVectorizer原理

可以把CountVectorizer, TfidfTransformer合并起来，直接生成tfidf值

3.1 举个栗子

TfidfVectorizer的关键参数：

max_df：这个给定特征可以应用在 tf-idf 矩阵中，用以描述单词在文档中的最高出现率。假设一个词（term）在 80% 的文档中都出现过了，那它也许（在剧情简介的语境里）只携带非常少信息。
min_df：可以是一个整数（例如5）。意味着单词必须在 5 个以上的文档中出现才会被纳入考虑。设置为 0.2；即单词至少在 20% 的文档中出现。
ngram_range：这个参数将用来观察一元模型（unigrams），二元模型（ bigrams）和三元模型（trigrams）。参考n元模型（n-grams）。

tfidf_vec = TfidfVectorizer() 
tfidf_matrix = tfidf_vec.fit_transform(corpus)
print(tfidf_vec.get_feature_names())
print(tfidf_vec.vocabulary_)
print(tfidf_matrix.toarray())

['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this']
{'this': 8, 'is': 3, 'the': 6, 'first': 2, 'document': 1, 'second': 5, 'and': 0, 'third': 7, 'one': 4}
[[ 0.          0.43877674  0.54197657  0.43877674  0.          0. 	    		 0.35872874  0.          0.43877674]
 [ 0.          0.27230147  0.          0.27230147  0.          0.85322574   	0.22262429  0.          0.27230147]
 [ 0.55280532  0.          0.          0.          0.55280532  0.   			0.28847675  0.55280532  0.        ]
 [ 0.          0.43877674  0.54197657  0.43877674  0.          0.   			0.35872874  0.          0.43877674]]

CountVectorizer文本特征提取

黑桃5200

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
数据处理——CountVectorizer、TfidfTransformer、TfidfVectorizer

1. CountVectorizer原理CountVectorizer是通过fit_transform函数将文本中的词语转换为词频矩阵1.1 举个栗子from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer, TfidfTransformer#导入包corpus = [ 'This i...
复制链接

扫一扫