实训日记【8】Ansj自定义词典

Ansj是一个非常好用的中文词典,而且也支持与Lucene等框架的搭配。在垂直领域当中,使用一个专用的词典非常重要。例如这次实训当中的“西红柿炖牛腩”,一般的分词会将其按照名词-动词-名词的形式分开。但我们都知道菜名应当是一个名词,所以我们在这里使用Ansj的分词。
在其官方文档当中,使用了UserDefineLibrary这样一个类。但是5.1.6版本已经找不到这个类了,现在的做法是

public class NLPAnsj {  
    @Test  
    public void Test(){  
        String str = "西红柿炖牛腩怎么做?";  
        DicLibrary.insert(DicLibrary.DEFAULT, "西红柿炖牛腩", "n", 1000);//设置自定义分词  n代表名词 1000代表默认出现的频率
    Result result=NlpAnalysis.parse(str);  
    List<Term> termList=result.getTerms();  
    for(Term term:termList){  
          System.out.println(term.getName()+":"+term.getNatureStr());  
    }  
    }  
}  

输出:

西红柿炖牛腩:n
怎么:r:v

当然了,要是每一次都添加一次,非常麻烦,那么我们该怎么做呢?
也是如官方文档所说,使用配置文件加载。
在resources文件夹下建立library文件夹
里面新建一个userLibrary.dic
里面写上

西红柿炖牛腩  n   1000

n是词性,数字是频率
最后,官方文档里的东西还是有点问题,应该使用forest激活这个词典,并在解析的时候将forest当做参数传入函数。

public class NLPAnsj {
    public static void main(String argsp[]) throws Exception{
        String str = "西红柿炖牛腩怎么做";
        Forest forest= Library.makeForest(NLPAnsj.class.getResourceAsStream("/library/userLibrary.dic"));//加载字典文件
        Result result= NlpAnalysis.parse(str, forest);
        List<Term> termList=result.getTerms();
        for(Term term:termList){
            System.out.println(term.getName()+":"+term.getNatureStr());
        }
    }
}

结果一样。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值