【甘道夫】基于sklearn计算tfidf时支持char + word模式

本文介绍了在使用sklearn计算TF-IDF时遇到的问题及解决方案。当corpus包含单字词时,CountVectorizer默认的analyzer='word'会导致错误。通过设置analyzer='char'可以支持单字词的TF-IDF计算,而要同时支持字和词,可以自定义token_pattern参数。
摘要由CSDN通过智能技术生成

欢迎转载,请注明原文链接:https://blog.csdn.net/u010967382/article/details/79728404

本文不介绍sklearn计算tfidf的过程,网上文章很多,只指出一个坑及其解决方案。

做tfidf计算有几行核心代码:
    vectorizer = CountVectorizer()    
    transformer = TfidfTransformer()
    tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))

如果corpus中包含这样的数据:['驴 福 记 ( 阜 通 店 )','...',...]
那执行vectorizer.fit_transform一定会报错:
*** ValueError: empty vocabulary; perhaps the documents only contain stop words
但是如果修改为
['驴 福 记 ( 阜通 店 )','...',...]
执行vectorizer.fit_transform就正常。
原因是,创建CountVectorizer实例时,有一个默认参数analyzer='word',在该参数作用下,词频矩阵构建过程会默认过滤所有的单字token,所以上面的'驴 福 记 ( 阜 通 店 )'以空格分隔以后全是单字,也就全被过滤了,所以就empty vocabulary了。

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值