大家好,我是herosunly,从985院校硕士毕业,现担任算法研究员一职。CSDN博客专家,2020年博客之星TOP。曾获得阿里云天池比赛第一名等Top名次,拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。
sklearn中CountVectorizer可以用来对文本提取词频特征、N-gram特征。是在自然语言处理中使用统计机器学习必不可少的特征提取库。先通过一张图简要讲解不同参数的作用,然后再通过代码来详细讲解不同参数之间是如何彼此影响的。
from sklearn.feature_extraction.text import CountVectorizer
corpus = [