sklearn中使用CountVectorizer和TfidfTransformer计算TF-IDF

CountVectorize

CountVectorizer是属于常见的特征数值计算类,是一个文本特征提取方法。对于每一个训练文本,它只考虑每种词汇在该训练文本中出现的频率。
CountVectorizer会将文本中的词语转换为词频矩阵,它通过fit_transform函数计算各个词语出现的次数。

CountVectorizer(input='content', encoding='utf-8',  decode_error='strict', strip_accents=None, lowercase=True, preprocessor=None, tokenizer=None, stop_words=None, 
token_pattern='(?u)\b\w\w+\b', ngram_range=(1, 1), analyzer='word', max_df=1.0, min_df=1, max_features=None, vocabulary=None, binary=False, dtype=<class 'numpy.int64'>)

CountVectorizer类的参数很多,分为三个处理步骤:preprocessing、tokenizing、n-grams generation.

一般要设置的参数是:ngram_range,max_df,min_df,max_features等,具体情况具体分析

参数表	        作用
input	        一般使用默认即可,可以设置为"filename’或’file’
encodeing	    使用默认的utf-8即可,分析器将会以utf-8解码raw document
decode_error	默认为strict,遇到不能解码的字符将报UnicodeDecodeError错误,设为ignore将会忽略解        码错误,还可以设为replace,作用尚不明确
strip_accents	默认为None,可设为ascii或unicode,将使用ascii或unicode编码在预处理步骤去除raw document中的重音符号
analyzer	    一般使用默认,可设置为string类型,如’word’,char, ‘char_wb’,还可设置为callable类型,比如函数是一个callable类型
preprocessor	设为None或callable类型
tokenizer	    设为None或callable类型
ngram_range	    词组切分的长度范围,待详解
stop_words	    设置停用词,设为english将使用内置的英语停用词,设为一个list可自定义停用词,设为None不使用停用词,设为None且max_df∈[0.7, 1.0)将自动根据当前的语料库建立停用词表
lowercase	    将所有字符变成小写
token_pattern	过滤规则,表示token的正则表达式,需要设置analyzer == ‘word’,默认的正则表达式选择2个及以上的字母或数字作为token,标点符号默认当作token分隔符,而不会被当作token
max_df	        可以设置为范围在[0.0 1.0]float,也可以设置为没有范围限制的int,默认为1.0。这个参数的作用是作为一个阈值,当构造语料库的关键词集的时候,如果某个词的document frequence大于max_df,这个词不会被当作关键词。如果这个参数是float,则表示词出现的次数与语料库文档数的百分比,如果是int,则表示词出现的次数。如果参数中已经给定了vocabulary,则这个参数无效
min_df	        类似于max_df,不同之处在于如果某个词的document frequence小于min_df,则这个词不会被当作关键词
max_features	默认为None,可设为int,对所有关键词的term frequency进行降序排序,只取前max_features个作为关键词集
vocabulary	    默认为None,自动从输入文档中构建关键词集,也可以是一个字典或可迭代对象?
binary	        默认为False,一个关键词在一篇文档中可能出现n次,如果binary=True,非零的n将全部置为1,这对需要布尔值输入的离散概率模型的有用的
dtype	        使用CountVectorizer类的fit_transform()transform()将得到一个文档词频矩阵,dtype可以设置这个矩阵的数值类型

属性表	              作用
vocabulary_	          词汇表;字典型
get_feature_names()	  所有文本的词汇;列表型
stop_words_	          返回停用词表


方法表	              作用
fit_transform(X)	  拟合模型,并返回文本矩阵
fit(raw_documents[,<
  • 3
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值