NLP的使用

潇锐killer

已于 2023-11-23 10:07:58 修改

阅读量902

点赞数 1

文章标签：自然语言处理人工智能

于 2023-11-23 09:47:12 首次发布

本文链接：https://blog.csdn.net/wangqiaowq/article/details/134569109

版权

参考：

Apache openNLP 简介 - 链滴 (ld246.com)

opennlp 模型下载地址：Index of /apache/opennlp/models/ud-models-1.0/ (tencent.com)

OpenNLP是一个流行的开源自然语言处理工具包，它提供了一系列的NLP模型和算法。然而，OpenNLP的官方发布版本并没有直接支持中文语言模型。但你可以通过以下步骤使用OpenNLP来处理中文文本： 1. 分词（Tokenization）：由于OpenNLP没有中文分词模型，你可以考虑使用其他中文分词工具，如jieba或HanLP，来进行中文分词。 2. 词性标注（Part-of-Speech Tagging）：OpenNLP提供了通用的词性标注模型，可以用于标注英文文本的词性。如果你需要对中文文本进行词性标注，可以尝试使用其他中文NLP工具，如HanLP。 3. 命名实体识别（Named Entity Recognition）：OpenNLP提供了命名实体识别模型，可以用于英文文本。如果你需要对中文文本进行命名实体识别，可以考虑使用其他中文NLP工具，如HanLP。需要注意的是，虽然OpenNLP是一个强大的NLP工具包，但它的官方版本并没有直接支持中文语言模型。因此，在处理中文文本时，建议选择专门针对中文的NLP工具，以获得更好的效果和准确性。

好吧，考虑下中文的NLP工具包

参考：【精选】HanLP 自然语言处理使用总结-CSDN博客

添加依赖

<!--hanlp 依赖-->
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.8.4</version>
        </dependency>

此时即可使用基本功能（除由字构词、依存句法分析外的全部功能）。如果需要使用全部功能还需下载词典和模型，下载地址：

http://nlp.hankcs.com/download.php?file=data

将下载后的data目录，拷贝至项目的 resources 目录下：

其中数据分为词典和模型，其中词典是词法分析必需的，模型是句法分析必需的，用户可以自行增删替换，如果不需要句法分析等功能的话，随时可以删除model文件夹。

下面还需要进行 HanLP 的配置，可以下载官方的配置模板：

http://nlp.hankcs.com/download.php?file=jar

解压后将 hanlp.properties文件拷贝至 resources 目录下，并修改下面配置：

测试例子：

其他例子还在学习中。。

嵌入（Embedding）是一种将高维向量映射到低维向量空间的技术，它在自然语言处理（NLP）中得到了广泛的应用。嵌入可以将词语或短语表示为低维向量，这些向量可以用于许多NLP任务，如文本分类、情感分析、命名实体识别等。

在NLP中，嵌入通常是通过训练神经网络来学习的。训练过程中，神经网络会将每个词语或短语表示为一个向量，并且这些向量应该能够捕捉到它们在语义空间中的相似性。例如，嵌入模型应该能够将“猫”和“狗”表示为相似的向量，因为它们在语义上具有相似之处。

常见的嵌入模型有Word2Vec、GloVe和FastText等。这些模型使用不同的算法和技术来生成词嵌入。Word2Vec和GloVe是两种流行的词嵌入模型，它们都是基于矩阵分解的方法。FastText是一种基于子词的词嵌入模型，它可以处理未登录词（Out-of-Vocabulary）问题。

在使用嵌入时，可以使用预训练的嵌入模型，也可以使用自己的数据集来训练嵌入模型。预训练的嵌入模型通常在大型语料库上训练，可以直接用于许多NLP任务。如果你的数据集与预训练模型的领域不同，你可以使用自己的数据集来训练嵌入模型，以生成更适合你的任务的嵌入。

NLP如何工作？

一般来说，NLP技术包括4个主要步骤：

词汇分析：将一个句子分割成被称为 “标记” 的词或小单元的过程，以确定它的含义和它与整个句子的关系。
句法分析：识别一个句子中不同的词和短语之间的关系，规范它们的结构，并以层次结构来表达这些关系的过程。
语义分析：将句法结构，从短语、分句、句子和段落的层次到整个写作的层次，与它们的语言无关的含义联系起来的过程。
输出转换：在对文本或语音进行语义分析的基础上，生成符合应用目标的输出的过程。

根据NLP的应用，输出将是一个翻译或完成一个句子，一个语法纠正，或基于规则或训练数据生成的反应。

自然语言实现一般都通过以下几个阶段：文本读取、分词、清洗、标准化、特征提取、建模。首先通过文本、新闻信息、网络爬虫等渠道获取大量的文字信息。然后利用分词工具对文本进行处理，把语句分成若干个常用的单词、短语，由于各国的语言特征有所区别，所以NLP也会有不同的库支撑。对分好的词库进行筛选，排除掉无用的符号、停用词等。再对词库进行标准化处理，比如英文单词的大小写、过去式、进行式等都需要进行标准化转换。然后进行特征提取，利用 tf-idf、word2vec 等工具包把数据转换成词向量。最后建模，利用机器学习、深度学习等成熟框架进行计算。

参考：【精选】NLP 自然语言处理实战_nlp项目实战_风尘浪子的博客-CSDN博客

潇锐killer

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
NLP的使用

然而，OpenNLP的官方发布版本并没有直接支持中文语言模型。但你可以通过以下步骤使用OpenNLP来处理中文文本： 1. 分词（Tokenization）：由于OpenNLP没有中文分词模型，你可以考虑使用其他中文分词工具，如jieba或HanLP，来进行中文分词。需要注意的是，虽然OpenNLP是一个强大的NLP工具包，但它的官方版本并没有直接支持中文语言模型。其中数据分为词典和模型，其中词典是词法分析必需的，模型是句法分析必需的，用户可以自行增删替换，如果不需要句法分析等功能的话，随时可以删除。
复制链接

扫一扫