测试庖丁解牛分词工具

最新推荐文章于 2021-02-21 14:00:34 发布

fox_wayen

最新推荐文章于 2021-02-21 14:00:34 发布

阅读量348

点赞数

分类专栏： java 中文分词文章标签： java 中文分词庖丁解牛

java 同时被 2 个专栏收录

32 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

因为笔者要在MapReduce中进行中文分词解析数据，所以测试了一下庖丁解牛中文分词器（paoding-analysis-2.0.4-beta）。现将使用过程小结：

下载地址：http://pan.baidu.com/s/1eQ88SZS

个人环境：linux+eclipse

使用分为如下几步：

1. 配置dic文件：

修改paoding-analysis.jar中的paoding-dic-home.properties文件，将“#paoding.dic.home=dic”的注释去掉，并配置成自己dic文件的本地存放路径。eg：/home/hadoop/work/paoding-analysis-2.0.4-beta/dic

2. 把Jar包导入到项目中：

将paoding-analysis.jar、commons-logging.jar、lucene-analyzers-2.2.0.jar和lucene-core-2.2.0.jar四个包导入到项目中，这时就可以在代码片段中使用庖丁解牛工具提供的中文分词技术，例如：

[java] view plain copy

Analyzer analyzer = new PaodingAnalyzer(); //定义一个解析器
String text = "庖丁系统是个完全基于lucene的中文分词系统，它就是重新建了一个analyzer，叫做PaodingAnalyzer，这个analyer的核心任务就是生成一个可以切词TokenStream。"; <span style="font-family:Arial, Helvetica, sans-serif;">//待分词的内容</span>
TokenStream tokenStream = analyzer.tokenStream(text, new StringReader(text)); //得到token序列的输出流
try {
Token t;
while ((t = tokenStream.next()) != null)
{
System.out.println(t); //输出每个token
}
} catch (IOException e) {
e.printStackTrace();
}

结果如下：

每一行的输出是一个token。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。