各分词工具对比 jieba、pkuseg、thulac、nlpir、基于BI-LSTM+ CRF自训练

 jieba
    主要接口
      cut
        https://github.com/fxsjy/jieba
        默认精准切词,尽量保留长词
        cut_all模式,在精准模式下增加一些短词
      cut_for_search
        切出尽量多的词用于搜索
    特性
      日常切词效果最好,比如三个字的动词一般会比较全,“打不开”,“扫一扫”,如何实现的,目前未知? 但多个字的名词会容易切掉,可能主要原因是语料较老,主要是1998人民日报
      算是目前实用性较高的工具
        目前最有效的方法就是将清华的高质量词库以及自己整理的专有词库导入jieba
      jieba与其他最大的区别是,jieba以预先整理的词库为优先,尽量匹配最长的词。而其他是通过模型预测BMES,再分词,对训练语料依赖高
  pkuseg
    特性
      主要基于人民日报,三个字的动词或形容词会容易切断,比如“打不开”,“好得多”
      https://github.com/lancopku/PKUSeg-python
  thulac
    特性
      与pkuseg效果基本差不多,主要基于人民日报
      https://github.com/thunlp/THULAC-Python
  nlpir
    特性
      与pkuseg效果基本差不多,主要基于人民日报
  BI-LSTM + CRF
    特性
      与pkuseg效果基本差不多,主要基于2014人民日报
      偶尔还能比前三个更好,比如“门禁卡号”
      https://github.com/GlassyWing/bi-lstm-crf
  其他资料
    中文各领域词库,含词频(IT、财经、成语、地名、历史名人、诗词、医学、饮食、法律、汽车、动物)/清华2016
      https://github.com/thunlp/THUOCL
  经验
    在中英文混杂复杂的情况下,建议将中英文分开处理再合并,能保证特殊英语词会的完整切词

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值