欢迎转载,请注明原文链接:https://blog.csdn.net/u010967382/article/details/79728404
本文不介绍sklearn计算tfidf的过程,网上文章很多,只指出一个坑及其解决方案。
做tfidf计算有几行核心代码:
vectorizer = CountVectorizer()
transformer = TfidfTransformer()
tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))
如果corpus中包含这样的数据:['驴 福 记 ( 阜 通 店 )','...',...]
那执行vectorizer.fit_transform一定会报错:
*** ValueError: empty vocabulary; perhaps the documents only contain stop words
但是如果修改为
['驴 福 记 ( 阜通 店 )','...',...]
执行vectorizer.fit_transform就正常。
原因是,创建CountVectorizer实例时,有一个默认参数analyzer='word',在该参数作用下,词频矩阵构建过程会默认过滤所有的单字token,所以上面的'驴 福 记 ( 阜 通 店 )'以空格分隔以后全是单字,也就全被过滤了,所以就empty vocabulary了。