sklearn中使用CountVectorizer和TfidfTransformer计算TF-IDF

最新推荐文章于 2023-03-31 20:21:35 发布

AI算法工程师YC

最新推荐文章于 2023-03-31 20:21:35 发布

阅读量3.7k

点赞数 3

分类专栏：深度学习自然语言处理NLP 文章标签： sklearn中使用CountVectorizer和TfidfTran

本文链接：https://blog.csdn.net/qq_36134437/article/details/103057909

版权

本文介绍了如何在sklearn中使用CountVectorizer和TfidfTransformer计算TF-IDF值。CountVectorizer将文本转换为词频矩阵，而TfidfTransformer则计算每个词语的TF-IDF权重。示例展示了这两个工具的使用方法及其结果分析，强调了在文本处理中的重要性。此外，推荐了几篇关于机器学习和NLP领域的优质博客资源。

摘要由CSDN通过智能技术生成

CountVectorize

CountVectorizer是属于常见的特征数值计算类，是一个文本特征提取方法。对于每一个训练文本，它只考虑每种词汇在该训练文本中出现的频率。
CountVectorizer会将文本中的词语转换为词频矩阵，它通过fit_transform函数计算各个词语出现的次数。

CountVectorizer(input='content', encoding='utf-8',  decode_error='strict', strip_accents=None, lowercase=True, preprocessor=None, tokenizer=None, stop_words=None, 
token_pattern='(?u)\b\w\w+\b', ngram_range=(1, 1), analyzer='word', max_df=1.0, min_df=1, max_features=None, vocabulary=None, binary=False, dtype=<class 'numpy.int64'>)

CountVectorizer类的参数很多，分为三个处理步骤：preprocessing、tokenizing、n-grams generation.

一般要设置的参数是:ngram_range,max_df，min_df，max_features等，具体情况具体分析

参数表	        作用
input	        一般使用默认即可，可以设置为"filename’或’file’
encodeing	    使用默认的utf-8即可，分析器将会以utf-8解码raw document
decode_error	默认为strict，遇到不能解码的字符将报UnicodeDecodeError错误，设为ignore将会忽略解        码错误，还可以设为replace，作用尚不明确
strip_accents	默认为None，可设为ascii或unicode，将使用ascii或unicode编码在预处理步骤去除raw document中的重音符号
analyzer	    一般使用默认，可设置为string类型，如’word’, ‘char’, ‘char_wb’，还可设置为callable类型，比如函数是一个callable类型
preprocessor	设为None或callable类型
tokenizer	    设为None或callable类型
ngram_range	    词组切分的长度范围，待详解
stop_words	    设置停用词，设为english将使用内置的英语停用词，设为一个list可自定义停用词，设为None不使用停用词，设为None且max_df∈[0.7, 1.0)将自动根据当前的语料库建立停用词表
lowercase	    将所有字符变成小写
token_pattern	过滤规则，表示token的正则表达式，需要设置analyzer == ‘word’，默认的正则表达式选择2个及以上的字母或数字作为token，标点符号默认当作token分隔符，而不会被当作token
max_df	        可以设置为范围在[0.0 1.0]的float，也可以设置为没有范围限制的int，默认为1.0。这个参数的作用是作为一个阈值，当构造语料库的关键词集的时候，如果某个词的document frequence大于max_df，这个词不会被当作关键词。如果这个参数是float，则表示词出现的次数与语料库文档数的百分比，如果是int，则表示词出现的次数。如果参数中已经给定了vocabulary，则这个参数无效
min_df	        类似于max_df，不同之处在于如果某个词的document frequence小于min_df，则这个词不会被当作关键词
max_features	默认为None，可设为int，对所有关键词的term frequency进行降序排序，只取前max_features个作为关键词集
vocabulary	    默认为None，自动从输入文档中构建关键词集，也可以是一个字典或可迭代对象？
binary	        默认为False，一个关键词在一篇文档中可能出现n次，如果binary=True，非零的n将全部置为1，这对需要布尔值输入的离散概率模型的有用的
dtype	        使用CountVectorizer类的fit_transform()或transform()将得到一个文档词频矩阵，dtype可以设置这个矩阵的数值类型

属性表	              作用
vocabulary_	          词汇表；字典型
get_feature_names()	  所有文本的词汇；列表型
stop_words_	          返回停用词表


方法表	              作用
fit_transform(X)	  拟合模型，并返回文本矩阵
fit(raw_documents[,<