CountVectorize(词频矩阵)
CountVectorizer是属于常见的特征数值计算类,是一个文本特征提取方法。
对于每一个训练文本,它只考虑每种词语 在该训练文本中 出现的频率。
CountVectorizer会将文本中的词语转换为词频矩阵,它通过fit_transform函数计算各个词语出现的次数。
CountVectorizer(input='content', encoding='utf-8', decode_error='strict', strip_accents=None