NLP中常用的分词器

原创 2018年04月17日 19:34:08

       众所周知,NLP即自然语言处理,那么在NLP中常用的分词器都有哪些呢?本文主要介绍NLP中常用的分词器。


一、Mmseg4j:基于正向最大匹配(https://code.google.com/p/mmseg4j/)

      mmseg4j用Chih-HaoTsai的MMSeg算法实现的中文分词器,并实现lucene的analyzer和solr的TokenizerFactory以方便在Lucene和Solr中使用。MMSeg算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。Complex加了四个规则过虑。官方说:词语的正确识别率达到了98.41%。mmseg4j已经实现了这两种分词算法。


二、结巴分词:(https://pypi.python.org/pypi/jieba/)

       结巴分词支持三种分词模式:1.精确模式,试图将句子最精确的切开,适合文本分析;2.全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解释歧义;3.搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。


三、Ansj:(https://github.com/NLPchina/ansj_seg)

       基于n-Gram+CRF+HMM的中文分词,支持ES比较好。


四、IKAnalyzer:(https://code.google.com/archive/p/ik-analyzer/)

IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。正向迭代最细粒度切分算法,支持ES比较好。

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/gdkyxy2013/article/details/79979112

NLP 最近常用分词工具

1、python工具包结巴分词,可直接使用easy_intall下载,方便。http://www.oschina.net/news/34492/jieba-0-20 2、HanLP这个Java工具包...
  • Tiffany_Li2015
  • Tiffany_Li2015
  • 2015-10-29 10:54:42
  • 513

用Stanford Parse(智能语言处理)去实现分词器

昨天研究学习了一下 Stanford Parse ,想利用 Stanford Parse 智能切词的效果结合到lucene 分词器中的想法;由于项目时间 仓促,部分研究没有完成。代码还存在bug,希...
  • hu948162999
  • hu948162999
  • 2015-03-26 12:03:05
  • 2595

10个中文分词器

1、word分词器 2、ansj分词器 3、mmseg4j分词器 4、ik-analyzer分词器 5、jcseg分词器 6、fudannlp分词器 7、smartcn分词器 8、jieba分词器 9...
  • sqzhao
  • sqzhao
  • 2015-08-13 22:30:11
  • 1200

Lucene中常用的几个分词器

来自网页:http://blog.csdn.net/ceclar123/article/details/10150839 一、WhitespaceAnalyzer 以空格作为切词标准,不对...
  • duomengwuyou
  • duomengwuyou
  • 2016-04-20 17:07:22
  • 1607

【原创】NLP中的中文分词技术

分词就是对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。是自然语言处理(NLP)的一种基础技术形态,中文因为特殊性,跟英文等自然语言处理方式不同,本文主要是探讨...
  • heiyeshuwu
  • heiyeshuwu
  • 2015-01-09 14:46:37
  • 8486

NLP专业术语

hyper-parameters:在训练模型时,有些参数是需要手动设置的,每个参数有一个可选的范围或者列表可供训练,可以调用sklearn的GridSearchCV函数来自动统计搜索。http://b...
  • yiqingyang2012
  • yiqingyang2012
  • 2016-11-10 22:22:30
  • 357

FudanNLP 复旦分词系统 小试一把

今天机缘巧合,碰到了fudannlp,就决定尝试一小把。。。发现还是蛮好用的。     首先下载需要的东西,一个.gz 文件,两个jar包。分别是:seg.c7.110918.gz,fudannlp...
  • Silver_sail
  • Silver_sail
  • 2012-08-30 18:39:02
  • 11906

NLP中jieba分词的用法(一)

一:首先介绍一下分词工具,其中用的比较多的分词工具有: 结巴中文分词http://209.222.69.242:9000/ 中科院分词系统http://ictclas.org/ictclas_dem...
  • gentelyang
  • gentelyang
  • 2017-09-12 15:10:35
  • 540

英文分词器代码实现解读

知识参考链接点这里 背景知识:分词、朴素贝叶斯、python(装饰器、缓存制表)、后缀数组 类的装饰器 最初,我们说装饰器是一个修改另一个函数的函数,但其实它们可以用于修改类或者方法。对类进行装饰...
  • wxyfennie
  • wxyfennie
  • 2017-01-07 21:01:23
  • 864

NLP一些基本概念初识

TF*IDF 在一份给定的文件里,词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化,以防止它偏向长的文件。(同一个词语在长文...
  • cugb1004101218
  • cugb1004101218
  • 2014-07-18 15:53:13
  • 931
收藏助手
不良信息举报
您举报文章:NLP中常用的分词器
举报原因:
原因补充:

(最多只允许输入30个字)