使用ictclas4j进行中文分词

最新推荐文章于 2021-02-15 23:41:51 发布

mcg@xisu

最新推荐文章于 2021-02-15 23:41:51 发布

阅读量6.1k

点赞数

分类专栏：机器翻译搜索技术开源专区文章标签： exception string myeclipse import class java

本文链接：https://blog.csdn.net/michenggang_dami/article/details/7315672

版权

开源专区同时被 3 个专栏收录

6 篇文章 0 订阅

订阅专栏

机器翻译

3 篇文章 1 订阅

订阅专栏

搜索技术

2 篇文章 0 订阅

订阅专栏

使用ictclas4j进行中文分词

ictclas4j是中科院计算所开发的中文分词工具ICTCLAS的Java版本，因其分词准确率较高，而备受青睐。

1、ictclas4j的下载及使用
        1>先从 http://ishare.iask.sina.com.cn/f/12821600.html下载ictclas4j的源码包ictclas4j.zip
        2>在myeclipse中新建Java项目ictclastest
        3>解压ictclas4j.zip，将其中的Data文件夹放入ictclastest项目文件夹下，将其中的bin和src文件夹中的内容分别拷到ictclastest项目文件夹下的bin和src文件夹中
        4>导入外部包commons-lang-2.0.jar
        5>ictclas4j配置完毕，可进行分词测试。
        示例：

import org.ictclas4j.bean.SegResult;
import org.ictclas4j.segment.SegTag;

public class Test {
    public static void main(String[] args) throws Exception{
        SegTag st = new SegTag(1);
        String line = "这是ictclas4j中文分词测试程序。";
        SegResult sr = st.split(line);
        System.out.println(sr.getFinalResult());
        }
    }

   2、遇到的问题及解决方案
          1>分词的结果中不需要进行词性的标注
              打开.../src/org/ictclas4j/segment中的SegTag.java文件，修改outputResult()函数，将

result += sn.getSrcWord() + "/" + temp + " ";

改为

result += sn.getSrcWord() + "  ";

即可去掉标注的词性
          2>在读取外部文件的内容进行分词时出现错误，如下所示：
              Exception in thread "main" java.lang.NullPointerException at org.ictclas4j.bean.Dictionary.getMaxMatch
              打开../src/org/ictclas4j/bean中的Dictionary.java文件，修改getMaxMatch()函数，在

for (int j = 0; j < wis.size(); j++) {

之前加上如下语句，判断为空条件：

if (wis == null) { return null; }

3>读取外部文件时由于编码问题引起的错误

注意文件的读取方式，在打开文件的同时注意指定文件的编码:

InputStreamReader read = new InputStreamReader (new FileInputStream(f),"UTF-8");

举例如下：

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileReader;
import java.io.InputStreamReader;

import org.ictclas4j.bean.SegResult;
import org.ictclas4j.segment.SegTag;

public class Test {
	public static void main(String[] args) throws Exception{
		SegTag st = new SegTag(1);
		String str = "";
		int n = 0;
		File f = new File("E:/corpus/traindatas/train_uy2ch.ch.txt");
		InputStreamReader read = new InputStreamReader (new FileInputStream(f),"UTF-8");
		BufferedReader reader=new BufferedReader(read);
		String line;
		while ((line = reader.readLine()) != null&&n<20) {
			SegResult sr = st.split(line);
			System.out.println(sr.getFinalResult());
			n ++;
			}
		}
	}

mcg@xisu

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
12
评论
使用ictclas4j进行中文分词

使用ictclas4j进行中文分词 ictclas4j是中科院计算所开发的中文分词工具ICTCLAS的Java版本，因其分词准确率较高，而备受青睐。 1、ictclas4j的下载及使用 1>先从http://ishare.iask.sina.com.cn/f/12821600.html下载ictclas4j的源码包ictclas4j.zip
复制链接

扫一扫