Scikit-learn CountVectorizer与TfidfVectorizer

最新推荐文章于 2024-03-14 18:14:56 发布

ssdut_209

最新推荐文章于 2024-03-14 18:14:56 发布

阅读量463

点赞数

本文主要介绍两个类的基本使用，CountVectorizer与TfidfVectorizer，这两个类都是特征数值计算的常见方法。对于每一个训练文本，CountVectorizer只考虑每种词汇在该训练文本中出现的频率，而TfidfVectorizer除了考量某一词汇在当前训练文本中出现的频率之外，同时关注包含这个词汇的其它训练文本数目的倒数。相比之下，训练文本的数量越多，TfidfVectorizer这种特征量化方式就更有优势。

#python2.7 sklearn version 0.18.1
from sklearn.feature_extraction.text import CountVectorizer
X_test = ['I sed about sed the lack',
'of any Actually']

count_vec=CountVectorizer(stop_words=None)
print count_vec.fit_transform(X_test).toarray()
print '\nvocabulary list:\n\n',count_vec.vocabulary_

>>
>>
[[1 0 0 1 1 0 2 1]
 [0 1 1 0 0 1 0 0]]

  (0, 4)    1
  (0, 7)    1
  (0, 0)    1
  (0, 6)    2
  (0, 3)    1
  (1, 1)    1
  (1, 2)    1
  (1, 5)    1

vocabulary list:

{u'about': 0, u'i': 3, u'of': 5, u'lack': 4, u'actually': 1, u'sed': 6, u'the': 7, u'any': 2}
   
   1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26

关于上面的代码，有几点说明：
（１）第６行代码中，stop_words=None表示不去掉停用词，若改为stop_words=’english’则去掉停用词；
（２）第12,13行，分别是X_test中，两段文本的词频统计结果；
（３）第15-22行，是稀疏矩阵的表示方式；
（４）CountVectorizer同样适用于中文

# -*- coding: utf-8 -*-
from sklearn.feature_extraction.text import CountVectorizer

X_test = [u'没有 你 的 地方 都是 他乡',u'没有 你 的 旅行 都是 流浪']

count_vec=CountVectorizer(token_pattern=r"(?u)\b\w\w+\b")
print count_vec.fit_transform(X_test).toarray()
print count_vec.fit_transform(X_test)
print '\nvocabulary list:\n'
for key,value in count_vec.vocabulary_.items():
    print key,value

>>
>>
[[1 1 0 1 0 1]
 [0 0 1 1 1 1]]
  (0, 0)    1
  (0, 5)    1
  (0, 1)    1
  (0, 3)    1
  (1, 4)    1
  (1, 2)    1
  (1, 5)    1
  (1, 3)    1

vocabulary list:

他乡 0
地方 1
旅行 2
没有 3
都是 5
流浪 4
   
   1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33

2.sklearn.feature_extraction.text.TfidfVectorizer

2.1 tf-idf

首先介绍一下如何计算tf-idf，并且需要明确的是tf-idf=tf*idf，也就是说tf与idf分别是两个不同的东西。其中tf为谋个训练文本中，某个词的出现次数，即词频(Term Frequency)；idf为逆文档频率（Inverse Document Frequency），对于词频的权重调整系数。

其中：