中文分词 JE-Analysis 组件使用外部自定义词典

devfan

于 2009-07-04 19:58:00 发布

阅读量2.5k

点赞数

分类专栏： Lucene 文章标签：全文检索 exception string import class

本文链接：https://blog.csdn.net/devfan/article/details/4321997

版权

Lucene 专栏收录该内容

5 篇文章

订阅专栏

JE-Analysis分词组件的一大特色就是可以添加词以及使用词典以扩张起自己带的词库,使得分词更加准确.下面就是使用外部词典代码:import java.io.IOException; import jeasy.analysis.MMAnalyzer; import java.io.FileNotFoundException; import java.io.FileReader; public class je_analysis { public static void main(String[] args) { // TODO Auto-generated method stub String text = "全文检索是指计算机索引程序通过扫描文章中的每一个词，对每一个词建立一个索引，" + "指明该词在文章中出现的次数和位置，当用户查询时，检索程序就根据事先建立的索引进行查找，" + "并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。"; MMAnalyzer analyzer=new MMAnalyzer(); try { FileReader rd=new FileReader("d://dic.txt"); analyzer.addDictionary(rd); } catch (FileNotFoundException e1) { // TODO Auto-generated catch block e1.printStackTrace(); } try { System.out.println(analyzer.segment(text, " | ")); } catch (Exception e) { // TODO: handle exception e.printStackTrace(); } } }