sklearn计算tf-idf中字+词 的tfidf计算(char,word),analyzer='word'

tf-idf中  字+词 的tfidf计算

做tfidf计算有几行核心代码:
 

    vectorizer = CountVectorizer()    
    transformer = TfidfTransformer()
    tfidf = transformer.fit_transform(vectorizer.fit_transform(text))

一个bug:

如果text中包含这样的数据:['驴 福 记 ( 阜 通 店 )','...',...], 执行vectorizer.fit_transform一定会报错如下:

*** ValueError: empty vocabulary; perhaps the documents only contain stop words

但是如果    text       修改为:['驴 福 记 ( 阜通 店 )','...',...],执行vectorizer.fit_transform就正常。 

原因:

创建CountVectorizer实例时,有一个默认参数analyzer='word',在该参数作用下,词频矩阵构建过程会默认过滤所有的单字token,所以上面的'驴 福 记 ( 阜 通 店 )'以空格分隔以后全是单字,也就全被过滤了,所以就empty vocabulary了。
 

analyzer关键字

如果想针对单字进行tfidf计算,可以加上参数vectorizer = CountVectorizer(analyzer='char'),此时,输入字符串无需做空格分隔, CountVectorizer会自动按照 单字 进行分隔统计词频。

要想同时支持 字+词 的tfidf计算,需自定义token正则:

 


vectorizer = CountVectorizer(analyzer='word',token_pattern=u"(?u)\\b\\w+\\b")
wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

 

 

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

贾世林jiashilin

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值