hanlp汉语言包

hanlp是一个开源的汉语言处理包,适用于分词和语言处理任务。它由词库、驱动器(jar包)和配置文件组成。词库包括不同类型的词典和模型,驱动器提供maven依赖,配置文件指定词库路径。文章介绍了如何在直接使用和lucene中集成hanlp的步骤。
摘要由CSDN通过智能技术生成

hanlp汉语言包

一、简介

在搜索或其它应用领域,我们通常需要对数据进行分词。在汉语言分词处理中,我们可以使用hanlp,它是开源的汉语言处理包,可用于分词、语言处理等操作。

二、组成

hanlp由三部分组成,分别是词库、驱动器(jar包)、hanlp配置。

2.1 词库

词库包含词典和模型,词典(位于data/dictionary目录下)用于词法分析,模型(位于data/model目录下)用于语法分析。对应的数据包有如下几类:

  • data.full.zip,完整的词库(包括词典和模型);
  • data.standary.zip,完整的词典,不包含模型;
  • data.mini.zip,小体积的词典,不包含模型;

下载地址是http://115.159.41.123/click.php?id=3

详情在地址https://github.com/hankcs/HanLP/releases/tag/v1.3.4中

2.2 驱动器(jar包)

hanlp提供了轻便的jar包,内置了基本的词典,maven依赖如下:

<dependency>
  <groupId>com.hankcs</groupId>
  <artifactId>hanlp</artifactId>
  <version>portable-1.2.8</version>
</dependency>

若在lucene或solr中使用,单独安装词典,则添加对应的依赖包,如下:

<dependency>   
    <groupId>com.hankcs.nlp</groupId>    
    <artifactId>hanlp-solr-plugin</artifactId>    
    <version>1.1.2</version>
</dependency>
<dependency>   
    <groupId>com.hankcs.nlp</groupId>    
    <artifactId>hanlp-solr-plugin</artifactId>    
    <version>1.1.2</version>
</dependency>
2.3 配置文件hanlp.properties

主要是配置词库的地址root=D:/HanLP/,配置文件内容如下:

#本配置文件中的路径的根目录,根目录+其他路径=绝对路径
#Windows用户请注意,路径分隔符统一使用/
root=D:/HanLP/
#核心词典路径
CoreDictionaryPath=data/dictionary/CoreNatureDictionary.txt
#2元语法词典路径
BiGramDictionaryPath=data/dictionary/CoreNatureDictionary.ngram.txt
#停用词词典路径
CoreStopWordDictionaryPath=data/dictionary/stopwords.txt
#同义词词典路径
CoreSynonymDictionaryDictionaryPath=data/dictionary/synonym/CoreSynonym.txt
#人名词典路径
PersonDictionaryPath=data/dictionary/person/nr.txt
#人名词典转移矩阵路径
PersonDictionaryTrPath=data/dictionary/person/nr.tr.txt
#繁简词典路径
TraditionalChineseDictionaryPath=data/dictionary/tc/TraditionalChinese.txt
#自定义词典路径,用;隔开多个自定义词典,空格开头表示在同一个目录,使用“文件名 词性”形式则表示这个词典的词性默认是该词性。优先级递减。
#另外data/dictionary/custom/CustomDictionary.txt是个高质量的词库,请不要删除
CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt; 现代汉语补充词库.txt; 全国地名大全.txt ns; 人名词典.txt; 机构名词典.txt; 上海地名.txt ns;data/dictionary/person/nrf.txt nrf
#CRF分词模型路径
CRFSegmentModelPath=data/model/segment/CRFSegmentModel.txt
#HMM分词模型
HMMSegmentModelPath=data/model/segment/HMMSegmentModel.bin
#分词结果是否展示词性
ShowTermNature=true

三、直接使用hanlp的代码实例

3.1 添加maven依赖
<dependency>
    <groupId>com.hankcs</groupId>
    <
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值