Python文本特征提取 CountVectorizer,TfidfVectorizer
Python文本特征提取 CountVectorizer,TfidfVectorizer
特征提取:
将文本数据转化成特征向量的过程
不考虑词语出现的顺序,每个出现过的词汇单独作为一列特征,这些不重复的特征词汇集合为词表,每一个文本都可以在很长的词表上统计出一个很多列的特征向量。
如果每个文本都出现的词汇,一般被标记为"停用词"不计入特征向量。
主要有两个API来实现 CountVectoriz...
原创
2019-09-28 10:36:29 ·
880 阅读 ·
0 评论