【甘道夫】基于sklearn计算tfidf时支持char + word模式

最新推荐文章于 2023-09-13 12:09:34 发布

Gandalf_lee

最新推荐文章于 2023-09-13 12:09:34 发布

阅读量3.1k

点赞数 13

分类专栏： scikit-learn 机器学习

本文链接：https://blog.csdn.net/u010967382/article/details/79728404

版权

本文介绍了在使用sklearn计算TF-IDF时遇到的问题及解决方案。当corpus包含单字词时，CountVectorizer默认的analyzer='word'会导致错误。通过设置analyzer='char'可以支持单字词的TF-IDF计算，而要同时支持字和词，可以自定义token_pattern参数。

摘要由CSDN通过智能技术生成

欢迎转载，请注明原文链接：https://blog.csdn.net/u010967382/article/details/79728404

本文不介绍sklearn计算tfidf的过程，网上文章很多，只指出一个坑及其解决方案。

做tfidf计算有几行核心代码：
vectorizer = CountVectorizer()
transformer = TfidfTransformer()
tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))
如果corpus中包含这样的数据：['驴福记 ( 阜通店 )','...',...]
那执行vectorizer.fit_transform一定会报错：
*** ValueError: empty vocabulary; perhaps the documents only contain stop words
但是如果修改为
['驴福记 ( 阜通店 )','...',...]
执行vectorizer.fit_transform就正常。
原因是，创建CountVectorizer实例时，有一个默认参数analyzer='word'，在该参数作用下，词频矩阵构建过程会默认过滤所有的单字token，所以上面的'驴福记 ( 阜通店 )'以空格分隔以后全是单字，也就全被过滤了，所以就empty vocabulary了。