Nutch-1.2添加中文分词ICTCLAS以及常见问题解答

最新推荐文章于 2021-05-15 10:17:44 发布

lvxiao9856

最新推荐文章于 2021-05-15 10:17:44 发布

阅读量685

点赞数

分类专栏： ictclas java

本文链接：https://blog.csdn.net/u012548562/article/details/40480069

版权

ictclas 同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

java

2 篇文章 0 订阅

订阅专栏

本文以windows系统为例

工具准备tomcat、eclipse、javac、ant、cgywin、Nutch-1.2、（NLPIR.dll、Data文件夹）---ICTCLAS中的文件

本文详细介绍Nutch-1.2中文分词在三个平台中的应用——Eclipse、Cygwin、tomcat

ok now begin。。。。。

1、Eclipse平台

首先请参照网络资料将Nutch-1.2中代码放入一个新建的java project。好了，假设你已经成功导入源代码，那么现在我们就来添加ICTCLAS。下图为nutch-1.2添加了ICTCLAS后的工程目录，共下文分析参考。

step 1: 将NLPIR.dll和data文件夹方法java工程根目录，新建一个类加载dll文件（加载方法请查找相关网络资料）

step 2：修改nutch代码

/src/java/org/apache/nutch/analysis下的 NutchAnalysis.jj

| <SIGRAM: (<CJK>)+ > //修改后的部分，源文件为 | <SIGRAM: <CJK> >
让他支持中文分词

step 3：使用 javacc 编译，生成代码

javacc NutchAnalysis.jj,生成7个java文件，覆盖原始文件

step 4: 修改NutchDocumentTokenizer.java 中的代码

 private static Reader myreader = null;

  public NutchDocumentTokenizer(Reader reader) {
    super(process(reader));
    tokenManager = new NutchAnalysisTokenManager(myreader);
    this.termAtt = addAttribute(TermAttribute.class);
    this.offsetAtt = addAttribute(OffsetAttribute.class);
    this.posIncrAtt = addAttribute(PositionIncrementAttribute.class);
    this.typeAtt = addAttribute(TypeAttribute.class);
  }

  public static Reader process(Reader reader){
   BufferedReader in = new BufferedReader(reader);
   String line="";
   String temp=null;
   try{
    while((temp =in.readLine())!=null){
    line += temp.replaceAll("/", "");
    System.out.println(line);
    }
   }catch(Exception e){
    System.out.println(e);
   }
   try{
   if(line!=null && !line.equals("")){
	   NlpirMethod.Nlpir_init();
	   line=NlpirMethod.NLPIR_ParagraphProcess(line, 0);
      myreader = new StringReader(line);
   }
   }catch(Exception e){
    }
   return myreader;
  }

根据编译器提示修改一些捕获异常的代码。

step 5：以上修改完成以后nutch就应该能支持中文分词了。测试一下：

执行org.apache.nutch.analysis.NutchAnalysis测试一下分词效果，如下

输入：

结果：

step 6：爬虫简历索引

如何修改nutch配置文件进行爬虫请参考其他网络资料

运行NutchBean.java,其中参数配置如图所示：

参数具体的含义相信大家都应该懂，这里不再赘述。执行结果会形成一个爬虫文件夹，文件夹结构如图所示：

各个文件的含义请查看相关文章。

2、cgywin平台

在cgywin中运行其实本质和eclipse中一样，将上面改好的文件复制和替换进入nutch目录文件夹下，运用ant工具将改好的代码编译即可。

调出windows命令窗口，CMD进入命令界面，cd 进入nutch-1.2文件目录，输入ant命令即可形成3个文件（build文件夹下）——nutch-1.2.jar、nutch-1.2.job、nutch-1.2.war,将前两者替换nutch中原有文件，nutch-1.2.war用于tomcat。