日语分词组件mecab使用 -- 分词(二)

mecab分词组建更新的比较快,而且开源,使用起来也很方便。 项目地址:https://code.google.com/p/mecab/


1. 下载词典:

如果是linux上使用 下载  https://code.google.com/p/mecab/downloads/detail?name=mecab-jumandic-7.0-20130310.tar.gz&can=2&q=

如果是windows上使用 下载 https://code.google.com/p/mecab/downloads/detail?name=mecab-0.996.exe&can=2&q=


2. 安装,这个分词组建和别的不一样,需要安装然后指定目录就可以使用。一般的自由软件安装顺序相同。

linux下安装:

  •  % tar zxfv mecab-X.X.tar.gz
     % cd mecab-X.X
     % ./configure 
     % make
     % make check
     % su
     # make install
    


    % tar zxfv mecab-ipadic-2.7.0-XXXX.tar.gz
    % mecab-ipadic-2.7.0-XXXX
    % ./configure
    % make
    % su
    # make install

Windows 上直接执行 exe文件,按说明安装。比如安装到了 C:\Program Files\MeCab  目录下。


3.  分词,在windows上做的例子。


下载java开发的sdk工具  https://code.google.com/p/mecab/downloads/detail?name=mecab-java-0.996.tar.gz&can=2&q=


需要在环境变量中设置 path路径 指向 C:\Program Files\MeCab\bin,如果是linux 需要设定 LD)LIBRARY_APTH

如果在eclipse下开发,需要在执行文件时设置环境变量 path = C:\Program Files\MeCab\bin

public class test {
  static {
    try {
       System.loadLibrary("MeCab");
    } catch (UnsatisfiedLinkError e) {
       System.err.println("Cannot load the example native code.\nMake sure your LD_LIBRARY_PATH contains \'.\'\n" + e);
       System.exit(1);
    }
  }

  public static void main(String[] argv) {
     System.out.println(MeCab.VERSION);
     Tagger tagger = new Tagger();
     String str = "太郎は二郎にこの本を渡した。";
     System.out.println(tagger.parse(str));
     Node node = tagger.parseToNode(str);
     for (;node !=
  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值