一、介绍
1、描述
Apache OpenNLP库是一种基于机器学习的工具包,用于处理自然语言文本。它支持最常见的NLP任务,如标记化,句子分割,词性标记,命名实体提取,分块,解析和参考解析。 通常需要这些任务来构建更高级的文本处理服务。 OpenNLP还包括基于最大熵和感知器的机器学习。
OpenNLP项目的目标是为上述任务创建一个成熟的工具包。 另一个目标是为各种语言提供大量预构建的模型,以及这些模型来自的注释文本资源。
2、结构
Apache OpenNLP库包含几个组件,使得能够构建一个完整的自然语言处理管道。 这些组件包括:句子检测器,分词器,名称查找器,文档分类器,词性标记器,chunker,解析器,参数解析。组件包含能够执行各自然语言处理任务,训练模型以及通常还用于评估模型的部分。 每个这些设施都可以通过其应用程序接口(API)访问。 此外,提供命令行界面(CLI)以方便实验和训练。
3、
1、)应用程序接口(API)。通用示例
OpenNLP组件具有类似的API。 通常,要执行任务,应该提供一个模型和一个输入。
模型通常通过为模型类的构造函数提供一个FileInputStream模型来加载:
InputStream modelIn = new FileInputStream("lang-model-name.bin");
try {