mecab分词组建更新的比较快,而且开源,使用起来也很方便。 项目地址:https://code.google.com/p/mecab/
1. 下载词典:
如果是linux上使用 下载 https://code.google.com/p/mecab/downloads/detail?name=mecab-jumandic-7.0-20130310.tar.gz&can=2&q=
如果是windows上使用 下载 https://code.google.com/p/mecab/downloads/detail?name=mecab-0.996.exe&can=2&q=
2. 安装,这个分词组建和别的不一样,需要安装然后指定目录就可以使用。一般的自由软件安装顺序相同。
linux下安装:
-
% tar zxfv mecab-X.X.tar.gz % cd mecab-X.X % ./configure % make % make check % su # make install
% tar zxfv mecab-ipadic-2.7.0-XXXX.tar.gz % mecab-ipadic-2.7.0-XXXX % ./configure % make % su # make install
Windows 上直接执行 exe文件,按说明安装。比如安装到了 C:\Program Files\MeCab 目录下。
3. 分词,在windows上做的例子。
下载java开发的sdk工具 https://code.google.com/p/mecab/downloads/detail?name=mecab-java-0.996.tar.gz&can=2&q=
需要在环境变量中设置 path路径 指向 C:\Program Files\MeCab\bin,如果是linux 需要设定 LD)LIBRARY_APTH
如果在eclipse下开发,需要在执行文件时设置环境变量 path = C:\Program Files\MeCab\bin
public class test {
static {
try {
System.loadLibrary("MeCab");
} catch (UnsatisfiedLinkError e) {
System.err.println("Cannot load the example native code.\nMake sure your LD_LIBRARY_PATH contains \'.\'\n" + e);
System.exit(1);
}
}
public static void main(String[] argv) {
System.out.println(MeCab.VERSION);
Tagger tagger = new Tagger();
String str = "太郎は二郎にこの本を渡した。";
System.out.println(tagger.parse(str));
Node node = tagger.parseToNode(str);
for (;node !=