我在使用sklearn中的ITIDF工具,想来这是在文本处理中常用的有个现成的工具一定是极好的。但是网上查了下代码试了下并没有得到跟他们一样的结果。现象是这样的,凡是输入的是中文就直接被忽略掉了,如果全是中文就直接空输入了。当然,前提已经排除掉是编码或者unicode的错误了。
网上搜到的代码参考:
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
if __name__ == "__main__":
corpus=[
u'我 来到 北京 清华大学',#第一类文本切词后的结果,词之间以空格隔开
u'他 来到 了 网易 杭研 大厦',#第二类文本的切词结果
u'小明 硕士 毕业 与 中国 科学院',#第三类文本的切词结果
u'我 爱 北京 天安门'
]#第四类文本的切词结果
vectorizer=CountVectorizer()#该类会将文本中的词语转换为词频矩阵,矩阵元素a[i][j] 表示j词在i类文本下的词频
transformer=TfidfTransformer()#该类会统计每个词语的tf-idf权值
x = vectorizer.fit_transform(corpus)
l=vectorizer.get_feature_names()
for u