![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
nlp
just-do-it-zzj
有人经常说:选择比努力更重要,可是如果你不努力,哪里有选择的机会。
展开
-
[pdf]使用pdfbox读取PDF的文字和图片的实例
使用了开源的pdfbox读取PDF的文字和图片原创 2023-04-12 16:59:56 · 1279 阅读 · 1 评论 -
[pdf]使用spire读取PDF的文字和图片
最近在梳理某项目的数据标准,从标准网下载了很多PDF格式的标准文件,需要提取文字和图片,所以写了个程序提取;本文使用了免费版的Spire。原创 2023-04-12 10:37:04 · 1666 阅读 · 0 评论 -
[NLP]OpenNLP块检测器(Chunker)的使用
Chunker分块是将文章的内容分成句法相关的词组,如名词组、动词组,但不指定它们的内部结构,也不说明它们在主句中的作用。训练数据的输入格式如下:Rockwell NNP B-NPInternational NNP I-NPCorp. NNP I-NP's POS B-NPTulsa NNP I-NPunit NN I-NPsaid VBD B-VPit PRP B-NPsigned VBD B-VPa DT B-NPtentative JJ I-NPagreement NN I原创 2020-12-21 09:13:54 · 678 阅读 · 0 评论 -
[NLP]OpenNLP词形还原器(Lemmatizer)的使用
Lemmatizer词形还原,把用POS tagger标注格式的词还原为标注前的格式。如输入:Rockwell_NNP International_NNP Corp._NNP 's_POS Tulsa_NNP unit_NN said_VBD it_PRP或者,输入三列,第一列为原词,第二列为词性标注,第三列为lemma的词形He PRP hereckons VBZ reckonthe DT thecurrent JJ currentaccou原创 2020-12-21 08:59:40 · 1645 阅读 · 0 评论 -
[NLP]OpenNLP词性标注器的使用
目录Part-of-Speech Tagger模型训练词性标注Part-of-Speech Tagger词性标记器根据词本身和词的上下文标记单词的类型。OpenNLP POS标记器使用概率模型来预测标签集中词的类型。为了限制词的类型范围,可以使用字典来提高标记器的标记和运行时效率。常用的词性简写参考:https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html训练可以用以下带标签格.原创 2020-12-17 16:54:46 · 439 阅读 · 0 评论 -
[NLP]OpenNLP文档分类器的使用
目录Document Categorizer模型训练文档分类Document Categorizer文档分类程序可以将文本分类为预定义的类别。它基于最大熵框架。模型训练import java.io.File;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStream;import opennlp.tools.doccat.DoccatModel;.原创 2020-12-17 16:50:14 · 551 阅读 · 0 评论 -
[NLP]OpenNLP命名实体识别(NameFinder)的使用
目录Name Finder模型训练命名识别Name Finder命名查找器可以检测文本中的命名实体和数字。为了能够检测到实体,命名查找器需要一个模型。模型依赖于它被训练的语言和实体类型。OpenNLP项目提供了许多预先培训过的名字查找模型,这些模型在各种免费的语料库上进行了培训。它们可以在我们的模型下载页面下载。要在原始文本中查找名称,必须将文本分成标记和句子。默认情况下,输入的训练数据中每行一个句子,句子内是经过tokenizer分词的词语。名称实体使用Span进行标记;输入.原创 2020-12-17 16:47:28 · 730 阅读 · 0 评论 -
[NLP]OpenNLP标记器的使用
目录Tokenizer模型训练句子分词TokenizerOpenNLP标记器将输入字符序列分段为标记。标记通常是单词、标点符号、数字等。标记化是一个两阶段的过程:首先,确定句子边界,然后识别每个句子中的标记。支持以下类型的分词器:Whitespace Tokenizer:空格标志器,以空格进行拆分Simple Tokenizer:一个字符类的Tokenizer ,相同字符类的序列为tokensLearnable Tokenizer: 基于检测标志边界的概率模型的最..原创 2020-12-15 09:04:23 · 457 阅读 · 0 评论 -
[NLP]OpenNLP语句检测器的使用
目录Sentence Detector模型训练语句检测Sentence Detector语句检测器,OpenNLP语句检测器可以检测标点字符是否标记了句子的结尾。在这个意义上,句子被定义为两个标点符号之间最长的空白字符序列。第一句和最后一句是对这条规则的例外。第一个非空白字符被假定为句子的开头,最后一个非空白字符被假定为句子的结尾。通常句子检测是在文本被分词之前完成的,但是也可以先执行分词,让句子检测器处理已经分词的文本。OpenNLP语句检测器无法根据句子内容识别句子边界。如.原创 2020-12-15 08:56:19 · 731 阅读 · 1 评论 -
[NLP]OpenNLP语言检测器的使用
目录Language Detector模型训练语言类型预测Language Detector语言检测器,属于分类范畴。即OpenNLP语言检测器根据模型的能力用ISO-639-3(国际语种代号标准)语言对文档进行分类。模型可以用最大熵模型(Maxent)、感知器(Perceptron)或朴素贝叶斯算法(Naive Bayes algorithms)训练。通过用n-gram算法在规范化文本的上下文中提取词汇,默认情况下,大小为1、2或3个字。通过扩展LanguageDetectorFact原创 2020-12-15 08:50:06 · 975 阅读 · 0 评论 -
[NLP]OpenNLP Maven工程的依赖
目录OpenNLP Tools依赖OpenNLP UIMA Annotators 依赖OpenNLP Morfologik AddOn依赖OpenNLP Brat Annotator依赖OpenNLP Tools SNAPSHOT依赖Maven依赖,参考http://opennlp.apache.org/maven-dependency.htmlOpenNLP Tools依赖<dependency> <groupId>org.apache.ope.原创 2020-12-11 16:39:10 · 478 阅读 · 0 评论 -
[NLP]OpenNLP介绍
目录OpenNLP介绍OpenNLP执行步骤预训练模型OpenNLP介绍Apache OpenNLP库是一个基于机器学习的工具箱,用于处理自然语言文本。OpenNLP 支持大部分通用的NLP任务,例如分词、分句、词性标注、命名实体识别、分块、语法分析、语言检测、共指解析等。OpenNLP项目的目标是为上述任务创建一个成熟的工具箱。另一个目标是为各种语言提供大量的预构建模型,以及这些模型派生的带注释的文本资源。OpenNLP库包含多个组件,使之能够构建完整的自然语言处理管道。这些组原创 2020-12-11 16:33:29 · 1703 阅读 · 0 评论 -
[pdfbox]pdfbox的使用
目录概述开发环境pom.xml 依赖实例1.全文解析1.1 一次获取整个文件的内容1.2 分页获取文字的内容1.3 分页获取文字和图片2.区域解析概述Apache PDFBox 是遵循Apache License v2.0的Java开源类库。用于操作PDF文档,可以创建新PDF文档,维护现有的PDF文档,或者从PDF文档中提取内容,支持生成加密的PDF文件,以及对PDF文件进行数字签名。Apache PDFBox同时提供了一个命令行操作工具。Apache P.原创 2020-12-10 17:30:19 · 6544 阅读 · 2 评论 -
[NLP]自然语言的处理步骤
NLP,Natural Language Processing 即自然语言处理。是人工智能的一个子领域,就是用计算机计算处理自然语言。进行自然语言处理一般需要以下步骤。获取语料预料,即语言材料,文本的集合成为语料库。在机器学习中,我们通常处理把用于模型训练的一行数据称为一个文本。但是日常中我们一般把一个文件称为一个文本,这个概念对初学者就很容易引起误解。比如处理数据是读入多个文件,但是经过预处理、特征工程后,这些文件可能被合并成一行,这时输入的一个文件不能成为一个文本,自然语言处理的文本概念是相对特原创 2020-11-27 11:01:05 · 2207 阅读 · 0 评论