jieba分词详解和实践

jieba分词是目前最好的 python中文分词组件。在讲解jieba分词之前,我们先了解一下中文分词的一些概念:

  • 最常用的TF-IDF

什么是TF-IDF呢?要分成2个部分来理解。

  1. TF,词频——一个词在文章中出现的次数
  2. IDF,在词频的基础上,赋予每个词一个权重,体现该词的重要性。

这是什么意思呢?我们来看个例子。

这是一条财经类新闻
上周 / 沉寂 / 一段 / 时间 / 的 / 白酒股 / 卷土重来 / ;/ 其中 / 古井贡酒 / 的 / 股价 / 创出 / 了 / 历史新高 / , / 这段 / 时间 / ……

在这篇文章中
上周:出现 1 次
时间:出现 2 次
白酒股:出现 1 次
的:出现 2 次
股价:出现 1 次

在以上的信息中,1、2、1、2、1等等这些次数就是TF词频
通常来说,一个词越重要,就会在文章中出现多次,这个词也就能反映出这篇文章的特性,但是你会发现,这篇文章出现最多次数的是 时间、的,它们反映出文章的特性了吗?当然没有!所以,我们还要对每个词进行分类赋予权重:
最常见的词(“的”,“是”,“了”)权重最小
比较常见的词(“时间”,“上周”,“中国”)权重比较小
很少见的词(“白酒股”,“股价”,“养殖”)权重最大
这里的权重就是IDF
将TF和IDF相乘,就得到了TF-IDF值,某个词对文章越重要,该值越大,于是排在前面的几个词,就是这篇文章的关键词。

当然,这个TF-IDF值不用我们自己算,在jieba里面,已经帮我们算好了TF-IDF,直接拿来用就好了。

jieba分词源码地址:https://github.com/fxsjy/jieba

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值