NLP基本工具之jieba详解

jieba的作用只有分词吗?

 

简介

jieba(结巴)是百度工程师Sun Junyi开发的一个开源库,在GitHub上很受欢迎,使用频率也很高。

GitHub链接:https://github.com/fxsjy/jieba

 

jieba最流行的应用是分词,包括介绍页面上也称之为“结巴中文分词”,但除了分词之外,jieba还可以做关键词抽取、词频统计等。

 

jieba支持四种分词模式:

  • 精确模式:试图将句子最精确地切开,只输出最大概率组合;
  • 搜索引擎模式:在精确模式基础上,对长词再次切分,提高召回率,适用于搜索引擎分词;
  • 全模式:把句子中所有的可以成词的词语都扫描出来;
  • paddle模式,利用PaddlePaddle深度学习框架,训练序列标注(双向GRU)网络模型实现分词。同时支持词性标注。


代码:

输出:

 

代码:

 

输出

 

从上面的例子可以看出:

  • 精确模式是比较常见的分词方式,也是默认的方式;
  • 搜索引擎模式切分更细一些,包含了清华、华大、大学、中国、科学、学院等等;
  • 全模式相对于搜索引擎模式更全,列出了所有可能
  • paddle模式接近于精确模式。

 

另外,jieba还支持:

  • 繁体分词
  • 自定义词典

 

安装:

pip/pip3/easy_install install jieba

使用:

import jieba  # 导入 jieba

import jieba.posseg as pseg  #词性标注

import jieba.analyse as anls  #关键词提取

 

算法

基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG)

采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合

对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法

 

关于关键词提取等功能,请关注后续文章。

 

相关文章

人工智能技术分析

人工智能 机器学习 深度学习

第六届世界互联网大会乌镇峰会简评

华为人工智能战略分析:2019华为全连接大会

阿里含光 VS 华为昇腾:AI芯片路在何方

AI人工智能三要素:数据、算力和算法

计算机视觉(CV)任务介绍:分类、检测、分割、超分、关键点识别、图像生成、度量学习

理解深度学习中的分类网络:LeNet

 

PyTorch 1.3

tf.GradientTape详解:梯度求解利器

TensorFlow高阶API和低阶API

TensorFlow静态图和eager机制

TensorFlow 2.0

TensorFlow高阶API和低阶API

TensorFlow调试技巧

TensorFlow与PyTorch对比

PyCharm调试技巧

解读谷歌的AI杀手级专利:Dropout

 

AutoML算法分析(一):基于强化学习的算法

SENet详解

 

关于我

缘起:新的开始

 

公众号持续更新,欢迎订阅。

AI人工智能与大数据

 

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值