配置Hanlp

配置Hanlp自然语言处理进阶

中文分词

中文分词中有众多分词工具,如结巴、hanlp、盘古分词器、庖丁解牛分词等;其中庖丁解牛分词仅仅支持java,分词是HanLP最基础的功能,HanLP实现了许多种分词算法,每个分词器都支持特定的配置。接下来我将介绍如何配置Hanlp来开启自然语言处理之旅,每个工具包都是一个非常强大的算法集合,所以小编以后将花一些时间去看看里面源码如何。

下载jar、property和data文件

下载jar文件https://github.com/hankcs/HanLP/releases/download/v1.5.2/hanlp-1.5.2-release.zip ,解压之后获得jar和property文件如下:

这里写图片描述

其中property问配置文件,jar文件为外部引用文件。
然后下载data文件:
https://pan.baidu.com/s/1o8Rri0y
解压压缩包之后就能获取data目录了

一切就绪之后下面就是配置了。

配置hanlp

新建一个空项目,包括一个新建的java文件的test.java,


package com;
import com.hankcs.hanlp.HanLP;
public class Test {
public static void main(String[] args) {
    System.out.println(HanLP.segment("你好,欢迎使用HanLP!")); 
    }
}  

目录结构如下图:

这里写图片描述

如果是在linux中的话,你可以将property文件放在classpath中,windows中也可以,配置环境变量,将property文件的绝对路径加上就可以了,然后运行一下这个java文件:
你会发现如下错误

十二月 11, 2017 9:59:37 下午 com.hankcs.hanlp.HanLP$Config <clinit>
严重: 没有找到hanlp.properties,可能会导致找不到data
========Tips========
请将hanlp.properties放在下列目录:
D:\ ideaWorkSpace\ hanlp_mavenHanlp\ target\classes
Web项目则请放到下列目录:
Webapp/WEB-INF/lib
Webapp/WEB-INF/classes
Appserver/lib
JRE/lib
并且编辑root=PARENT/path/to/your/data

然后将property放到相应的目录就可以了,注意property配置只需要修改root的配置就行了

本配置文件中的路径的根目录,根目录+其他路径=绝对路径Windows用户请注意,路径分隔符统一使用/
root=D:/ideaWorkSpace/hanlp_mavenHanlp/src/main/java

就比如我的解压后的data文件夹是放在D:/ideaWorkSpace/hanlp_mavenHanlp/src/main/java目录下的那我就改这个就可以了,其余的配置不用修改

运行成功如下图:

这里写图片描述

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值