sklearn.feature_extraction.text.CountVectorizer()
要使用toarray()这种方法
停用词表上网搜索
stop_words 以列表的形式进行传输
利用这个jieba,pip install jieba
然后进行下载,
进行分词
进行分词之后,跟上一部分一样,进行实例化转换器,然后调用fit_transform的方法
注意data_new单独打印不了,必须调用toarray()这个函数
想要看看输出的特征名字transfet.get_feature_names()这个函数,才能知道选取的什么特征名字
第一部分的代码有问题,导致," "需要加上空格再join才可以进行正确的划分词