![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
jiaojiaolou
这个作者很懒,什么都没留下…
展开
-
NLP学习路径(四):NLP词性标注与命名实体识别
1、词性标注(1)词性标注简介词性标注是在给定句子中判定每个词的语法范畴,确定其词性并加以标注。但在中文中,一个词的词性很多时候都是不固定的。从整体上看大多数词语,尤其是实词,一般只有1-2个词性,且其中一个词性的使用频次远远大于另一个,即使每次都将高频词性作为词性选择进行标注,也能实现80%以上的准确率。目前较为主流的方法是同分词方法一样,将句子的词性标注作为一个序列标注问题来解决,即可以...原创 2019-03-26 09:13:35 · 3154 阅读 · 0 评论 -
ACL2017:扩展命名实体识别API及其在语言教育中的应用 (翻译)
摘要:我们提出了一个扩展命名实体识别API来识别各种类型的实体,并将实体分类为200个不同的类别。每个实体都被划分为实体类别中的一个层次,其中层次结构中根附近的类别比叶子附近的类别更具有概括性。这些类别信息可用于各种应用程序,如语言教育应用程序、在线新闻服务和推荐引擎。本文展示了该API在一个针对日语学习者的日文在线新闻服务中的应用。1 引言 命名实体识别(NER)是信息检索、...原创 2019-05-07 15:17:40 · 366 阅读 · 0 评论 -
ACL2018:Aspect Based Sentiment Analysis with Gated Convolutional Networks(翻译)
Abstract 基于Aspect的情感分析(ABSA)能提供比一般情感分析更详细的信息,因为它的目的是预测文本中给定的aspect或实体的情感极性。我们将以前的方法归纳为两个子任务:aspect类别情感分析(aspect-category sentiment analysis (ACSA)) 和aspect实体情感分析( aspect-term sentiment analys...原创 2019-05-14 18:33:32 · 2648 阅读 · 0 评论 -
NLP学习路径(八):情感分析技术
1、情感分析的基本方法 对情感分析的研究到目前为止主要集中在两个方面:识别给定的文本实体是主观的还是客观的,以及识别主观的文本的极性。大多数情感分析研究都是使用机器学习的方法。 在情感分析领域,文本可以划分为积极和消极两类,或者积极、消极和中性的多类。分析方法主要分为: ①词法分析 ②基于机器学习的分析 ③混合分析(1)...原创 2019-04-30 14:01:32 · 2520 阅读 · 0 评论 -
词向量与Embedding
https://spaces.ac.cn/archives/4122转载 2019-04-20 14:52:33 · 485 阅读 · 0 评论 -
NLP中文词向量训练:word2vec(Negative Sampling)
一.基于Hierarchical Softmax的word2vec模型的缺点Hierarchical Softmax ,使用霍夫曼树结构代替了传统的神经网络,可以提高模型训练的效率。但是如果基于Hierarchical Softmax的模型中所以词的位置是基于词频放置的霍夫曼树结构,词频越高的词在离根节点越近的叶子节点,词频越低的词在离根节点越远的叶子节点。也就是说当该模型在训练到生僻词时,需...原创 2019-04-29 11:11:24 · 1262 阅读 · 0 评论 -
NLP学习路径(五):NLP关键词提取算法
1、关键词提取技术概述关键词提取算法主要分为:有监督和无监督。(1)有监督:通过分类的方式进行,通过构建一个较为丰富和完善的词表,然后通过判断每个文档与词表的匹配程度,以类似打标签的方式,达到关键词提取的效果。优点:能够获取到较高的精度缺点:需要大量的标注数据,需要人工维护(2)无监督:不需要人工生成维护的词表,也不需要人工标准语料辅助进行训练2、TF/IDF算法(无监督)TF-ID...原创 2019-04-08 21:24:52 · 2158 阅读 · 0 评论 -
NLP学习路径(七):NLP文本向量化
1、文本向量化概述(1)含义 文本向量化就是将文本表示成一系列能够表达文本语义的向量。词语都是表达文本处理的最基本单元。当前阶段,对文本向量化大部分研究都是通过词向量化实现的。但也有一部分将文章或者句子作为文本处理的基本单元,于是产生了doc2vec和str2vec技术。(2)方法word2vec(词语),doc2vec(文章),str2vec(句子)2、向量化算法...原创 2019-04-10 19:37:17 · 3226 阅读 · 0 评论 -
NLP学习路径(一):NLP基础知识
1、基本术语:(1)分词分词常用手段:基于字典的最长串匹配,但歧义分词很难。比如:美国/会/通过法案。美/国会/通过法案。(2)词性标注词性:动词、名词、形容词等目的:表征词的一种隐藏状态,隐藏状态构成的转移就构成了状态转移序列。比如:我/r爱/v中国/ns。其中,ns代表名词,v是动词,ns,v都是标注。(3)命名实体识别指从文本中识别具有特定类别的实体(通常是名词),例如人名、地...原创 2019-03-16 21:26:29 · 2339 阅读 · 0 评论 -
NLP学习路径(二):NLP前期技术要求
1、正则表达式在NLP中的基本应用原创 2019-03-16 22:23:40 · 1091 阅读 · 0 评论 -
Jieba:高频词提取
1、高频词定义高频词是指文档中出现频率较高且非无用的词语,其一定程度上代表了文档的焦点所在。针对单篇文档可以作为一种关键词来看。对于如新闻这样的多篇文档,可以将其作为热词,发现舆论热点。高频词提取的干扰项:1)标点符号2)停用词:类似“的”,“是”,“了”等无意义的词。...原创 2019-03-23 09:31:52 · 4895 阅读 · 0 评论 -
NLP学习路径(三):NLP中文分词技术
1、中文分词简介难点:分词歧义方法:1)规则分词:人工建立词库,按一定方式匹配切分。缺点:对新词很难进行处理。2)统计分词:利用机器学习技术。缺点:过于依赖语料的质量。3)混合分词:上述两种方法的结合。(用得较多)2、规则分词主要是通过维护词典,在切分语句时,将语句的每个字符串与词表中的词进行逐一匹配,找到则切分,否则不予切分。主要方法有:正向最大匹配法;逆向最大匹配法;双向最大匹...原创 2019-03-23 09:35:59 · 928 阅读 · 0 评论 -
NLP学习路径(六):NLP句法分析
1、句法分析(1)主要任务:识别出句子所包含的的句法成分以及这些成分之间的关系,一般以句法树来表示句法分析的结果。(2)难点:歧义;搜索空间(3)句法分析种类:①完全句法分析:以获取整个句子的句法结构为目的②局部句法分析:只关注局部的一些成分,例如依存句法分析(4)句法分析方法:基于规则(存在语法规则覆盖有限、系统可迁移差等缺陷);基于统计(一套面向候选树的评价方法,其会给...原创 2019-03-30 09:37:12 · 2248 阅读 · 0 评论 -
Glove词向量
1、共现概率Glove使用了词与词之间的共现(co-occurrence)信息。假设元素Xij为词j出现在词i的环境(context)的次数。这里的”环境”有多种的定义。比如,在一段文本序列中,如果词j出现在词i左边或者右边不超过10个词的距离,我们认为词j出现在词i的环境一次。那么词j出现在词i的环境的概率,这一概率也叫做词i和词j的共现概率。如下为词j出现在词i环境的共现概率。其中...原创 2019-05-15 10:04:16 · 2892 阅读 · 0 评论