这个是因为你导入的字典是中文的原因,你可以使用几个空格将文本分开,注意空格不能在最后面。
但是拆出来的是几个字组成的。不能做到每一个都字,,,,
或者 CountVectorizer(analyzer=‘char’,token_pattern=u"(?u)\b\w+\b")
加上后面参数即可
这个是因为你导入的字典是中文的原因,你可以使用几个空格将文本分开,注意空格不能在最后面。
但是拆出来的是几个字组成的。不能做到每一个都字,,,,
或者 CountVectorizer(analyzer=‘char’,token_pattern=u"(?u)\b\w+\b")
加上后面参数即可