eclipse使用ansj分词器的歧义词典

最新推荐文章于 2020-10-29 14:24:49 发布

牧师123

最新推荐文章于 2020-10-29 14:24:49 发布

阅读量1.1k

点赞数 2

分类专栏： ansj分词器 java 自定义词典文章标签： ansj 分词 eclipse 自定义词典 java

本文链接：https://blog.csdn.net/qq_33617735/article/details/81032006

版权

ansj分词器同时被 3 个专栏收录

1 篇文章 0 订阅

订阅专栏

java

1 篇文章 0 订阅

订阅专栏

自定义词典

1 篇文章 0 订阅

订阅专栏

利用ansj分词器的词典进行分词，避免了自定义词的分词不准确问题

AnsjWord.java工具类

//创建自定义歧义词典，list为传入词典信息参数

public void CreateDictionary(List<String> list) throws IOException {
URL url =this.getClass().getResource("/library/ambiguity.dic");
System.out.println(url.getFile());
File file=new File(url.getFile());//词典路径
file.delete();
//删除并重新创建文件
if(!file.exists()) {//词典文件不存在就创建文件
file.createNewFile();
}

BufferedWriter writer = new BufferedWriter (new OutputStreamWriter (new FileOutputStream (file,true),"UTF-8"));

//词典只能识别UTF-8格式

for(String str:list ) {
writer.write(str+"\tabc\r\n");
}
writer.flush();
writer.close();
}

//自定义歧义词典分词，str为要分的词

public Map<String,String> ansj(String str){
Map<String,String> strMap=new HashMap<String,String>();
//Forest forest = null;
URL url = this.getClass().getResource("/library/ambiguity.dic");
System.out.println(url.getFile());
try {

MyStaticValue.putLibrary(AmbiguityLibrary.DEFAULT,url.getFile(),AmbiguityLibrary.get());
Result result=DicAnalysis.parse(str);//传入forest
List<Term> termList=result.getTerms();
for(Term term:termList){
strMap.put(term.getNatureStr(),term.getName());
System.out.println(term.getName()+":"+term.getNatureStr());
}
} catch (Exception e) {
e.printStackTrace();

}

return strMap;

}

//测试

public static void main(String[] args) throws IOException {

List<String> list=new ArrayList<String>();
list.add("这里添加词典中的词，可手动添加，也可从数据库查询获取");

list.add("这里是");

list.add("分词的词");

new AnsjWord().CreateDictionary(list);//创建词典

new AnsjWord().ansj("这里是要分词的词");
}

library.properties 配置文件

ambiguityLibrary=target/classes/library/ambiguity.dic