OpenNLP ngram n元语法模型(简介)

本文介绍了OpenNLP库中用于生成和操作ngram的类和方法,包括NGramGenerator、NGramModel和NGramUtils。NGramGenerator用于生成ngram,NGramModel用于存储和操作ngram计数,而NGramUtils提供各种概率计算算法,如拉普拉斯平滑、最大似然估计等。
摘要由CSDN通过智能技术生成

n元语法模型在这里不进行介绍,大家可以根据这两篇博客了解下:关于N-Gram模型或者自然语言处理中的N-Gram

写这篇博客主要是要用到OpenNLP中的ngram模型(我用的opennlp-tools-1.7.0,版本,opennlp.tools.ngram包中),在这里对里面的类和方法的功能简要介绍。


一、NGramGenerator 类

1.功能:对给定的序列使用自定义的分隔符生成一个ngram,并将所有的ngram存储在String类型的List中

2.方法:

(1)public static List<String> generate(List<String> input, int n, String separator){...}

String类型的List作为输入input,用户根据n自定义要生成几元语法类型(n = 2,3 为bigram或者trigram),并且根据separator自定义字符分割标签

(2)public static List<String> generate(char[] input, int n, String separator){...}

该方法除了输入类型为char型数组外,与上一方法用法一样


3.例子:

public class App 
{
    public static void main( String[] args )
    {
    	String setence = "我爱自然语言处理。";
    	char[] ch = setence.toCharArray();
    	
    	List<String> trigram = NGramGenerator.generate(ch, 3, "/");    	
    	
        System.out.println(trigram);
    }
}

该程序运行的结果为:[我/爱/自, 爱/自/然, 自/然/语, 然/语/言, 语/言/处, 言/处/理, 处/理/。]


二、NGramModel类

1.功能:用来生成ngrams 和 character ngrams


2.方法:

(1࿰

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值