ansj中文分词的不同方式效率比较

最新推荐文章于 2019-01-14 10:02:47 发布

swust_20141014

最新推荐文章于 2019-01-14 10:02:47 发布

阅读量757

点赞数

分类专栏： java 文章标签： ansj 中文分词

本文链接：https://blog.csdn.net/swust_20141014/article/details/50987350

版权

java 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

这里以<<人民日报分词语料>>为样例分析，总共297959行，字数为461多万，网上有很多下载链接：

1、每行单独分词（运算时间为8529MS）：

import java.io.BufferedReader;
import java.io.IOException;
import org.ansj.splitWord.analysis.ToAnalysis;
import love.cq.util.IOUtil;
public class GetResult {
	public static void main(String[] args) throws IOException{
		BufferedReader reader = IOUtil.getReader("files/人民日报分词语料-分词前.txt", "UTF-8");
		ToAnalysis.parse("123");
		String word = null;
		long before = 0,after = 0;
		before = System.currentTimeMillis();
		while ((word = reader.readLine()) != null) {
			ToAnalysis.parse(word);
		}
		after = System.currentTimeMillis();
		System.out.println("花费时间(MS)：" +(after - before));
	}
}

2、一次全部分词（运行时间为30822MS）：

import java.io.BufferedReader;
import java.io.IOException;
import org.ansj.splitWord.analysis.ToAnalysis;
import org.apache.commons.io.IOUtils;
import love.cq.util.IOUtil;
public class GetResult {
	public static void main(String[] args) throws IOException{
		BufferedReader reader = IOUtil.getReader("files/人民日报分词语料-分词前.txt", "UTF-8");
		String word = IOUtils.toString(reader);
		long before = 0,after = 0;
		before = System.currentTimeMillis();
		ToAnalysis.parse(word);
		after = System.currentTimeMillis();
		System.out.println("花费时间(MS)：" +(after - before));
	}
}

综合来看，单行分词比一次分词要快一些。以上均代表个人意见。

swust_20141014

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ansj中文分词的不同方式效率比较

这里以>为样例分析，总共297959行，字数为461多万，网上有很多下载链接：1、每行单独分词（运算时间为8529MS）：import java.io.BufferedReader;import java.io.IOException;import org.ansj.splitWord.analysis.ToAnalysis;import love.cq.util.IOUtil;pu
复制链接

扫一扫