![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
文章平均质量分 80
ros275229
这个作者很懒,什么都没留下…
展开
-
chunkers/maxent_ne_chunker/english_ace_multiclass.pickle 找不到
官方下的数据集,找不到english_ace_multiclass.pic。原创 2024-06-30 16:49:37 · 232 阅读 · 0 评论 -
nlp--最大匹配分词(计算召回率)
最大匹配算法是一种常见的中文分词算法,其核心思想是从左向右取词,以词典中最长的词为优先匹配。这里我将为你展示一个简单的最大匹配分词算法的实现,并结合输入任意句子、显示分词结果以及计算分词召回率。原创 2024-06-30 16:43:19 · 281 阅读 · 0 评论 -
走进机器学习
机器学习近年来被大规模应用在各种领域,特别是 NLP 领域。虽然机器学习是门建立在统计和优化上的新兴学科,但是在自然语言处理、数据科学等领域,它却占据着核心的地位。图 1机器学习最初的研究动机是让计算机系统具有人的学习能力以便实现人工智能。因为没有学习能力的系统很难被认为是具有智能的。目前被广泛采用的机器学习的定义是“利用经验来改善计算机系统自身的性能”。原创 2024-06-27 18:45:36 · 1030 阅读 · 0 评论 -
情感分析方法与实践
情感极性分析是对带有感情色彩的主观性文本进行分析、处理、归纳和推理的过程。按照处理文本的类别不同,可分为基于新闻评论的情感分析和基于产品评论的情感分析。其中,前者多用于舆情监控和信息预测,后者可帮助用户了解某一产品在大众心目中的口碑,目前常见的情感极性分析方法主要是两种:基于情感词典的方法和基于机器学习的方法。本实训主要接下来将主要介绍基于情感词典的情感分析,关于基于机器学习的情感分析,将在后续实训中介绍。图 1。原创 2024-06-27 18:38:53 · 823 阅读 · 0 评论 -
向量化算法 doc2vec
Doc2Vec 的目的是获得文档的一个固定长度的向量表达。在我们获得 Doc2Vec 模型之前,我们首先需要准备好数据,即多个文档,以及它们的标签(可以用标题作为标签)。Doc2vec 算法的过程,主要有两步:训练模型:在已知的训练数据中得到词向量 W ,softmax,以及段落向量/句向量;推断过程:对于新的段落,得到其向量表达。在这个阶段中,可以呈现新文档,并且固定所有权重以计算文档向量。其中,影响模型准确率的因素主要有:语料的大小,文档的数量,越多越高;文档的相似性,越相似越好。原创 2024-06-27 18:32:37 · 638 阅读 · 0 评论 -
向量化算法 word2vec
文本表示是自然语言处理中的基础工作,文本表示的好坏直接影响到整个自然语言处理系统的性能。文本向量化就是将文本表示成一系列能够表达文本语义的向量,是文本表示的一种重要方式。目前对文本向量化大部分的研究都是通过词向量化实现的,也有一部分研究者将句子作为文本处理的基本单元,于是产生了 doc2vec 和 str2vec 技术。原创 2024-06-27 18:24:57 · 523 阅读 · 0 评论 -
句法分析的常用方法与实战
HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。不同于一些简陋的分词类库,HanLP 精心优化了内部数据结构和 IO 接口,做到了毫秒级的冷启动、千万字符每秒的处理速度,而内存最低仅需120MB。无论是移动设备还是大型集群,都能获得良好的体验。不同于市面上的商业工具, HanLP 提供训练模块,可以在用户的语料上训练模型并替换默认模型,以适应不同的领域。原创 2024-06-27 18:20:05 · 533 阅读 · 0 评论 -
句法分析概述
句法分析( syntactic parsing )是自然语言处理中的关键技术之一,它是对输入的文本句子进行分析以得到句子的句法结构的处理过程。对句法结构进行分析,一方面是语言理解的自身需求,句法分析是语言理解的重要一环,另一方面也为其它自然语言处理任务提供支持。例如句法驱动的统计机器翻译需要对源语言或目标语言(或者同时两种语言)进行句法分析。从20世纪50年代初机器翻译课题被提出时算起,自然语言处理研究已经有60余年的历史,句法分析一直是自然语言处理前进的巨大障碍。歧义。原创 2024-06-27 18:15:35 · 822 阅读 · 0 评论 -
TextRank 算法
nlp,TextRank算法原创 2024-06-27 18:13:09 · 712 阅读 · 0 评论 -
TF/IDF算法
停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为 Stop Words(停用词)。这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。但是,并没有一个明确的停用词表能够适用于所有的工具。甚至有一些工具是明确地避免使用停用词来支持短语搜索的。在信息爆炸的时代,很多信息我们无法全面接收,我们需要从中筛选出一些我们感兴趣的或者说对我们有用的信息进行接收。怎么选择呢,关键词提取就是其中一个很好的方法。原创 2024-06-27 17:42:25 · 1022 阅读 · 0 评论 -
词性标注--头歌
NLP词性标注原创 2024-06-27 17:28:09 · 369 阅读 · 0 评论 -
N元语法模型
NLP_头歌原创 2024-06-27 17:18:30 · 580 阅读 · 0 评论