eclipse使用ansj分词器的歧义词典

利用ansj分词器的词典进行分词,避免了自定义词的分词不准确问题

AnsjWord.java工具类

//创建自定义歧义词典,list为传入词典信息参数

public void CreateDictionary(List<String> list) throws IOException {
    URL url =this.getClass().getResource("/library/ambiguity.dic");
System.out.println(url.getFile());
File file=new File(url.getFile());//词典路径
file.delete();
//删除并重新创建文件
if(!file.exists()) {//词典文件不存在就创建文件
    file.createNewFile();
    }

BufferedWriter writer = new BufferedWriter (new OutputStreamWriter (new FileOutputStream (file,true),"UTF-8"));

//词典只能识别UTF-8格式

    for(String str:list ) {
    writer.write(str+"\tabc\r\n");
    }
    writer.flush();
    writer.close();
    } 

//自定义歧义词典分词,str为要分的词

 public Map<String,String> ansj(String str){  
 Map<String,String> strMap=new HashMap<String,String>();
       //Forest forest = null;  
        URL url = this.getClass().getResource("/library/ambiguity.dic");
       System.out.println(url.getFile());
       try {  
       
           MyStaticValue.putLibrary(AmbiguityLibrary.DEFAULT,url.getFile(),AmbiguityLibrary.get()); 
           Result result=DicAnalysis.parse(str);//传入forest  
           List<Term> termList=result.getTerms();  
           for(Term term:termList){  
            strMap.put(term.getNatureStr(),term.getName());
               System.out.println(term.getName()+":"+term.getNatureStr());  
           }  
       } catch (Exception e) {  
           e.printStackTrace();  

       }

return strMap;  

   }

//测试  

public static void main(String[] args) throws IOException {

List<String> list=new ArrayList<String>();
 list.add("这里添加词典中的词,可手动添加,也可从数据库查询获取");

          list.add("这里是");

           list.add("分词的词");

new AnsjWord().CreateDictionary(list);//创建词典

 
  new AnsjWord().ansj("这里是要分词的词");
}




library.properties  配置文件

ambiguityLibrary=target/classes/library/ambiguity.dic


各文件对应路径,ambiguity.dic词典文件就是自动创建的歧义词典


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值