说一说sklearn和jieba做tf-idf做领域关键词提取的区别

4 篇文章 0 订阅

首先先定义一下问题的范围

我们只涉及提取关键词,而不是生成关键词
本文不讨论分词,不讨论具体的理论,只是论述这个坑
坑:sklearn和jieba在tf-idf的区别

sklearn的策略:类似BN

这里说一下:sklearn的tfidf:
全世界有100万文章,我训练是10万文章,TfidfTransformer是一万一万的fit然后提取tf-idf
sklearn搞得跟BN一样,一批一批的idf
sklearn的tf-idf使用

    transformer = TfidfTransformer()
    tfidf = transformer.fit_transform(X)

其中fit_transform的源码,混合了这个类,是所有transformer的实现【python没有接口的概念,所以大量的mixin,https://www.cnblogs.com/aademeng/articles/7262520.html】
在这里插入图片描述
我们再找到tf-idf的fit和transform函数,我们知道:fit生成了idf,然后transform使用了它
在这里插入图片描述
所以,在增量等处理中,fit的这个处理就像是BN一样,一批一批的fit,然后tf-idf,拿不到全局的idf

jieba策略:单独的idf

jieba的tfidf,公共的idf
参考文章:https://github.com/fxsjy/jieba
https://blog.csdn.net/sinat_34022298/article/details/75943272
在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值