OpenNLP
just-do-it-zzj
有人经常说:选择比努力更重要,可是如果你不努力,哪里有选择的机会。
展开
-
[NLP]OpenNLP块检测器(Chunker)的使用
Chunker分块是将文章的内容分成句法相关的词组,如名词组、动词组,但不指定它们的内部结构,也不说明它们在主句中的作用。训练数据的输入格式如下:Rockwell NNP B-NPInternational NNP I-NPCorp. NNP I-NP's POS B-NPTulsa NNP I-NPunit NN I-NPsaid VBD B-VPit PRP B-NPsigned VBD B-VPa DT B-NPtentative JJ I-NPagreement NN I原创 2020-12-21 09:13:54 · 666 阅读 · 0 评论 -
[NLP]OpenNLP词形还原器(Lemmatizer)的使用
Lemmatizer词形还原,把用POS tagger标注格式的词还原为标注前的格式。如输入:Rockwell_NNP International_NNP Corp._NNP 's_POS Tulsa_NNP unit_NN said_VBD it_PRP或者,输入三列,第一列为原词,第二列为词性标注,第三列为lemma的词形He PRP hereckons VBZ reckonthe DT thecurrent JJ currentaccou原创 2020-12-21 08:59:40 · 1603 阅读 · 0 评论 -
[NLP]OpenNLP词性标注器的使用
目录Part-of-Speech Tagger模型训练词性标注Part-of-Speech Tagger词性标记器根据词本身和词的上下文标记单词的类型。OpenNLP POS标记器使用概率模型来预测标签集中词的类型。为了限制词的类型范围,可以使用字典来提高标记器的标记和运行时效率。常用的词性简写参考:https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html训练可以用以下带标签格.原创 2020-12-17 16:54:46 · 426 阅读 · 0 评论 -
[NLP]OpenNLP文档分类器的使用
目录Document Categorizer模型训练文档分类Document Categorizer文档分类程序可以将文本分类为预定义的类别。它基于最大熵框架。模型训练import java.io.File;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStream;import opennlp.tools.doccat.DoccatModel;.原创 2020-12-17 16:50:14 · 519 阅读 · 0 评论 -
[NLP]OpenNLP命名实体识别(NameFinder)的使用
目录Name Finder模型训练命名识别Name Finder命名查找器可以检测文本中的命名实体和数字。为了能够检测到实体,命名查找器需要一个模型。模型依赖于它被训练的语言和实体类型。OpenNLP项目提供了许多预先培训过的名字查找模型,这些模型在各种免费的语料库上进行了培训。它们可以在我们的模型下载页面下载。要在原始文本中查找名称,必须将文本分成标记和句子。默认情况下,输入的训练数据中每行一个句子,句子内是经过tokenizer分词的词语。名称实体使用Span进行标记;输入.原创 2020-12-17 16:47:28 · 698 阅读 · 0 评论 -
[NLP]OpenNLP标记器的使用
目录Tokenizer模型训练句子分词TokenizerOpenNLP标记器将输入字符序列分段为标记。标记通常是单词、标点符号、数字等。标记化是一个两阶段的过程:首先,确定句子边界,然后识别每个句子中的标记。支持以下类型的分词器:Whitespace Tokenizer:空格标志器,以空格进行拆分Simple Tokenizer:一个字符类的Tokenizer ,相同字符类的序列为tokensLearnable Tokenizer: 基于检测标志边界的概率模型的最..原创 2020-12-15 09:04:23 · 450 阅读 · 0 评论 -
[NLP]OpenNLP语句检测器的使用
目录Sentence Detector模型训练语句检测Sentence Detector语句检测器,OpenNLP语句检测器可以检测标点字符是否标记了句子的结尾。在这个意义上,句子被定义为两个标点符号之间最长的空白字符序列。第一句和最后一句是对这条规则的例外。第一个非空白字符被假定为句子的开头,最后一个非空白字符被假定为句子的结尾。通常句子检测是在文本被分词之前完成的,但是也可以先执行分词,让句子检测器处理已经分词的文本。OpenNLP语句检测器无法根据句子内容识别句子边界。如.原创 2020-12-15 08:56:19 · 719 阅读 · 1 评论 -
[NLP]OpenNLP语言检测器的使用
目录Language Detector模型训练语言类型预测Language Detector语言检测器,属于分类范畴。即OpenNLP语言检测器根据模型的能力用ISO-639-3(国际语种代号标准)语言对文档进行分类。模型可以用最大熵模型(Maxent)、感知器(Perceptron)或朴素贝叶斯算法(Naive Bayes algorithms)训练。通过用n-gram算法在规范化文本的上下文中提取词汇,默认情况下,大小为1、2或3个字。通过扩展LanguageDetectorFact原创 2020-12-15 08:50:06 · 934 阅读 · 0 评论