如何在ubuntu使用hanlp

前言

  以前,我对大部分的处理中文分词都是使用python的结巴分词工具,该分词工具是在线调用API, 关于这个的分词工具的原理介绍,我推荐一个好的博客:
http://blog.csdn.net/daniel_ustc/article/details/48195287.
  随着项目的需求,我需要使用斯坦福大学的自然语言处理包standford作依存关系树的构建,然而standford很调皮地不让我做中文分词处理(老报错).无奈之下,我只能使用第三方的分词工具.由于standford的源码是java,我寻找了一个与之对应的分词工具,即hanlp.

HanLP的安装使用

  HanLP的一个很大的好处是离线开源工具包,换而言之,它不仅提供免费的代码免费下载,而且将辛苦收集的词典也对外公开啦,此诚乃一大无私之举.我在安装的时候,主要参照这份博客:
http://m.blog.csdn.net/article/details?id=50938796
  不过该博客主要介绍的是windows如何使用hanlp,而ubuntu是linux的,所以会有所区别.下面我主要介绍的是在unbuntu的安装使用.

  • 安装eclipse
    在终端输入 sudo get-apt install eclipse-platform实现一键安装,然后在应用程序找到eclipse

这里写图片描述

  • 下载hanlp
      访问hanlp的官方网址:http://hanlp.linrunsoft.com/services.html
    分别下载hanlp.jar(程序包), data.zip(词典库),hanlp.properties(配置文件),而后面是说明文档,可以不下载

这里写图片描述
  在下载的data.zip的时候,下载链接有点隐晦,点击蓝色的data-for-1.2.11.zip,就会出现百度云链接啦

这里写图片描述

这里写图片描述

  • 编程代码示范
import java.util.List;

import com.hankcs.hanlp.HanLP;
import com.hankcs.hanlp.seg.Segment;
import com.hankcs.hanlp.seg.common.Term;


public class DemoHanLP {
    public static void main(String[] agrs){
        String sentence = "大家好, 我的名字叫作Quincy.";
        Segment segment = HanLP.newSegment();
        List<Term> termList = segment.seg(sentence);
        for(Term term : termList){
            System.out.print(term+ " ");
        }
    }
}

运行结果:

这里写图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值