因为笔者要在MapReduce中进行中文分词解析数据,所以测试了一下庖丁解牛中文分词器(paoding-analysis-2.0.4-beta)。现将使用过程小结:
下载地址:http://pan.baidu.com/s/1eQ88SZS
个人环境:linux+eclipse
使用分为如下几步:
1. 配置dic文件:
修改paoding-analysis.jar中的paoding-dic-home.properties文件,将“#paoding.dic.home=dic”的注释去掉,并配置成自己dic文件的本地存放路径。eg:/home/hadoop/work/paoding-analysis-2.0.4-beta/dic
2. 把Jar包导入到项目中:
将paoding-analysis.jar、commons-logging.jar、lucene-analyzers-2.2.0.jar和lucene-core-2.2.0.jar四个包导入到项目中,这时就可以在代码片段中使用庖丁解牛工具提供的中文分词技术,例如:
       Analyzer analyzer = new PaodingAnalyzer(); //定义一个解析器
       String text = "庖丁系统是个完全基于lucene的中文分词系统,它就是重新建了一个analyzer,叫做PaodingAnalyzer,这个analyer的核心任务就是生成一个可以切词TokenStream。"; //待分词的内容
       TokenStream tokenStream = analyzer.tokenStream(text, new StringReader(text)); //得到token序列的输出流
       try {
           Token t;
           while ((t = tokenStream.next()) != null)
           {
        		   System.out.println(t); //输出每个token
           }
       } catch (IOException e) {
           e.printStackTrace();
       }
每一行的输出是一个token。
 
                   
                   
                   
                   
                             本文介绍如何在MapReduce环境中使用庖丁解牛中文分词器进行中文分词处理。通过配置dic文件及引入相关jar包,实现中文文本的精确分词,并展示分词结果。
本文介绍如何在MapReduce环境中使用庖丁解牛中文分词器进行中文分词处理。通过配置dic文件及引入相关jar包,实现中文文本的精确分词,并展示分词结果。
           
       
           
                 
                 
                 
                 
                 
                
               
                 
                 
                 
                 
                
               
                 
                 扫一扫
扫一扫
                     
              
             
                  
 被折叠的  条评论
		 为什么被折叠?
被折叠的  条评论
		 为什么被折叠?
		 
		  到【灌水乐园】发言
到【灌水乐园】发言                                
		 
		 
    
   
    
   
             
            


 
            