自然语言
文章平均质量分 80
Eason.wxd
我是Eason,我喂自己袋盐...
展开
-
系统学习NLP(三十二)--BERT、XLNet、RoBERTa、ALBERT及知识蒸馏
参考:https://zhuanlan.zhihu.com/p/84559048一.BERTBERT是一种基于Transformer Encoder来构建的一种模型,它整个的架构其实是基于DAE(Denoising Autoencoder)的,这部分在BERT文章里叫作Masked Lanauge Model(MLM)。MLM并不是严格意义上的语言模型,因为整个训练过程并不是利用语言模型方式来训练的。BERT随机把一些单词通过MASK标签来代替,并接着去预测被MASK的这个单词,过程其实就是DAE的转载 2020-07-01 10:29:40 · 3570 阅读 · 0 评论 -
系统学习NLP(三十一)--基于CNN句子分类
这篇文章翻译自A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classification近年来,卷积神经网络在句子分类任务上取得了显著的成绩(Kim, 2014;Kalchbrenner et al .,2014),然而,这些模型要求从业者指定...翻译 2020-01-25 22:22:24 · 8842 阅读 · 0 评论 -
系统学习NLP(二十六)--NBSVM
论文:Baselines and Bigrams: Simple, Good Sentiment and Topic Classification参考:https://blog.csdn.net/leayc/article/details/80037757跟原文有一定差异,理解不一致。朴素贝叶斯(Naive Bayes, NB)和支持向量机(Support Vector Machines...转载 2019-11-30 17:56:27 · 1239 阅读 · 0 评论 -
系统学习NLP(三十)--词向量对齐
这块,也可以参考facebook的https://www.jiqizhixin.com/articles/under-the-hood-multilingual-embeddings关于词向量对齐的历史方法,可以看这里:https://blog.csdn.net/xacecaSK2/article/details/1020962561. 前言在公司业务需求背景下,我需要解决来源不同语言...转载 2019-12-06 14:02:37 · 7788 阅读 · 1 评论 -
系统学习NLP(二十九)--BERT
补充一份细节的理解:https://zhuanlan.zhihu.com/p/74090249输入嵌入:https://www.cnblogs.com/d0main/p/10447853.html1. 前言在本文之前我们已经介绍了ELMo和GPT的两个成功的模型,今天给大家介绍google新发布的BERT模型。BERT来头可不小,其性能超越许多使用任务特定架构的系统,刷新了11项NLP...转载 2019-12-05 22:19:14 · 2456 阅读 · 0 评论 -
系统学习NLP(二十八)--GPT
论文:Improving Language Understandingby Generative Pre-Training1. 前言本文对2018年OpenAi提出的论文《Improving Language Understandingby Generative Pre-Training》做一个解析。一个对文本有效的抽象方法可以减轻NLP对监督学习的依赖。大多数深度学习方法大量的...转载 2019-12-02 23:50:51 · 1218 阅读 · 0 评论 -
系统学习NLP(二十七)--EMLo
论文:Deep contextualized word representations参考:https://www.cnblogs.com/huangyc/p/9860430.htmlhttps://blog.csdn.net/firesolider/article/details/88092831ELMo的语言理解是通过预测训练单词序列中的下一个单词来实现,这项任务被称为语言建模。这...转载 2019-12-02 23:14:17 · 1419 阅读 · 0 评论 -
系统学习NLP(二十五)--语种识别landID
一.项目简介1.1 LangID & langidLangid是一个现成的语言识别工具。语言识别(LangID)可用于USENET信息,网络搜索词,多语言文本检索,语法分析等领域。从1990年起,LangID就被视为有监督的机器学习任务,并极大地受到文本分类(text categorization)研究的影响[3]。这里我们研究的是单语言(Monolingual...转载 2019-11-24 14:43:14 · 3144 阅读 · 0 评论 -
系统学习NLP(二十四)--详解Transformer (Attention Is All You Need)
转自:https://zhuanlan.zhihu.com/p/48508221推荐:http://jalammar.github.io/illustrated-transformer/前言注意力(Attention)机制[2]由Bengio团队与2014年提出并在近年广泛的应用在深度学习中的各个领域,例如在计算机视觉方向用于捕捉图像上的感受野,或者NLP中用于定位关键token或者特...转载 2019-07-18 16:58:07 · 1574 阅读 · 0 评论 -
系统学习NLP(二十三)--浅谈Attention机制的理解
转自:https://zhuanlan.zhihu.com/p/35571412Attentin机制的发家史Attention机制最早是应用于图像领域的,九几年就被提出来的思想。随着谷歌大佬的一波研究鼓捣,2014年google mind团队发表的这篇论文《Recurrent Models of Visual Attention》让其开始火了起来,他们在RNN模型上使用了attention...转载 2019-07-18 16:48:17 · 2243 阅读 · 0 评论 -
系统学习NLP(二十二)--主题模型LDA
转自:https://blog.csdn.net/kisslotus/article/details/78427585原文更详细,这里删减了不少1. 简介在机器学习领域,LDA是两个常用模型的简称:Linear Discriminant Analysis 和 Latent Dirichlet Allocation。本文的LDA仅指代Latent Dirichlet Allocation. ...转载 2019-05-20 22:18:08 · 2441 阅读 · 3 评论 -
系统学习NLP(二十一)--关键词提取算法总结
先说一下自动文摘的方法。自动文摘(Automatic Summarization)的方法主要有两种:Extraction和Abstraction。其中Extraction是抽取式自动文摘方法,通过提取文档中已存在的关键词,句子形成摘要;Abstraction是生成式自动文摘方法,通过建立抽象的语意表示,使用自然语言生成技术,形成摘要。由于生成式自动摘要方法需要复杂的自然语言理解和生成技术支持,应用...转载 2019-11-18 16:48:03 · 8002 阅读 · 13 评论 -
系统学习NLP(二十)--SWEM
这篇发表在 ACL 2018 上的论文来自于杜克大学 Lawrence Carin 教授的实验室。文章重新审视了 deep learning models(例如 CNN, LSTM)在各类 NLP 任务中的必要性。通过大量的实验探究(17 个数据集),作者发现对于大多数的 NLP 问题,在 word embedding 矩阵上做简单的 pooling 操作就达到了比 CNN encoder 或...翻译 2019-03-19 10:05:25 · 3584 阅读 · 0 评论 -
系统学习NLP(十九)--文本分类之FastText
转自:https://blog.csdn.net/sinat_26917383/article/details/54850933FastText是Facebook开发的一款快速文本分类器,提供简单而高效的文本分类和表征学习的方法,不过这个项目其实是有两部分组成的,一部分是这篇文章介绍的fastText 文本分类(paper:A. Joulin, E. Grave, P. Bojanowski,...转载 2019-03-14 10:41:05 · 1207 阅读 · 0 评论 -
系统学习NLP(十八)--文本分类概述
转自:https://blog.csdn.net/u014248127/article/details/80774668 文本分类问题: 给定文档p(可能含有标题t),将文档分类为n个类别中的一个或多个文本分类应用: 常见的有垃圾邮件识别,情感分析文本分类方向: 主要有二分类,多分类,多标签分类文本分类方法: 传统机器学习方法(贝叶斯,svm等),深度学习方法(fastText,Text...转载 2019-03-14 10:15:46 · 2669 阅读 · 1 评论 -
系统学习NLP(十七)--文本相似度
转自:https://blog.csdn.net/qq_28031525/article/details/79596376 在自然语言处理(Natural Language Processing, NLP)中,经常会涉及到如何度量两个文本的相似度问题。在诸如对话系统(Dialog system)和信息检索(Information retrieval)等的问题中,如何度量句子或者短语之间的相似度...转载 2019-03-13 20:23:08 · 5203 阅读 · 0 评论 -
系统学习NLP(十六)--DSSM
转自:http://blog.csdn.net/u013074302/article/details/76422551导语在NLP领域,语义相似度的计算一直是个难题:搜索场景下query和Doc的语义相似度、feeds场景下Doc和Doc的语义相似度、机器翻译场景下A句子和B句子的语义相似度等等。本文通过介绍DSSM、CNN-DSSM、LSTM-DSSM等深度学习模型在计算语义相似度上的应...转载 2019-03-12 20:30:50 · 1213 阅读 · 0 评论 -
系统学习NLP(十五)--seq2seq
转自:https://blog.csdn.net/Jerr__y/article/details/537496931. RNN基础对于RNN,我看到讲得最通俗易懂的应该是Andrej发的博客: The Unreasonable Effectiveness of Recurrent Neural Networks这里有它的中文翻译版本: 递归神经网络不可思议的有效性如果想了解 LSTM ...转载 2019-03-12 20:07:40 · 574 阅读 · 0 评论 -
系统学习NLP(十四)--句子向量与篇章向量
转自:https://blog.csdn.net/qq_35082030/article/details/72582103这是Tomas Mikolov的一篇关于段落向量和句子向量的论文。本文是我翻译加自我理解的结果,如需要更详细的介绍,请看英文文献。摘要许多机器翻译的算法都需要使用固定长度的词向量特征。在到达文本层面时,我我们最常用的一个固定长度的特征时词袋模型。尽管他们很流行,但是词袋模...转载 2019-03-11 19:08:17 · 3097 阅读 · 0 评论 -
系统学习NLP(十三)--词向量(word2vec原理)
词向量简介自然语言是一套用来表达含义的复杂系统。在这套系统中,词是表义的基本单元。在机器学习中,如何使用向量表示词?顾名思义,词向量是用来表示词的向量,通常也被认为是词的特征向量。近年来,词向量已逐渐成为自然语言处理的基础知识。一种最简单的词向量方式是one-hot representation,就是用一个很长的向量来表示一个词,向量的长度为词典的大小,向量的分量只有一个 1,其他全为...转载 2019-03-10 12:14:43 · 6923 阅读 · 0 评论 -
系统学习NLP(十二)--文本表示综述
文本表示,简单的说就是不将文本视为字符串,而视为在数学上处理起来更为方便的向量(也就是文本特征抽取)。而怎么把字符串变为向量,就是文本表示的核心问题。文本表示,基于类型分为:长文本表示 短文本表示(句子) 词表示关于文本表示,研究者从不同的角度出发,提出大量的文本表示模型。本文重点梳理现有模型,大致分为三类,即基于向量空间模型、基于主题模型和基于神经网络的方法。基于向量空间模型的...转载 2019-03-10 11:23:02 · 4459 阅读 · 0 评论 -
系统学习NLP(十一)--命名实体识别
转自:https://www.cnblogs.com/bep-feijin/articles/9650898.html命名实体识别(Named EntitiesRecognition, NER)是自然语言处理(Natural LanguageProcessing, NLP)的一个基础任务。其目的是识别语料中人名、地名、组织机构名等命名实体。由于这些命名实体数量不断增加,通常不可能在词典中穷尽列...转载 2019-03-09 20:05:29 · 3100 阅读 · 1 评论 -
系统学习NLP(十)--词性标注算法综述
词性标注:将句子中兼类词的词性根据上下文唯一地确定下来。词性(part-of-speech)是词汇基本的语法属性,通常也称为词类。词性标注就是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程,是中文信息处理面临的重要基础性问题。 和分词一样,中文词性标注也存在着很多难点,比如一词多词性,未登录词处理等诸多问题。通过基于字符串匹配的字典查询算法和基于统计的词性标...转载 2019-03-09 19:38:01 · 7790 阅读 · 1 评论 -
系统学习NLP(九)--中文分词算法综述
转自:https://zhuanlan.zhihu.com/p/33261835挺好的,推荐!什么是中文分词与大部分印欧语系的语言不同,中文在词与词之间没有任何空格之类的显示标志指示词的边界。因此,中文分词是很多自然语言处理系统中的基础模块和首要环节。下面以jieba的示例给读者一个对分词的感性认识。【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学【精确模...转载 2019-03-08 16:12:16 · 1374 阅读 · 0 评论 -
系统学习NLP(八)--中文分词整理
中文分词概述词是最小的能够独立活动的有意义的语言成分,一般分词是自然语言处理的第一项核心技术。英文中每个句子都将词用空格或标点符号分隔开来,而在中文中很难对词的边界进行界定,难以将词划分出来。在汉语中,虽然是以字为最小单位,但是一篇文章的语义表达却仍然是以词来划分的。因此处理中文文本时,需要进行分词处理,将句子转为词的表示,这就是中文分词。 分词是词法分析(还包括...转载 2019-03-08 11:12:21 · 2661 阅读 · 0 评论 -
系统学习NLP(七)--词语相似度
目的是为了计算词语之间的各种语义关系。分为以下几类:基于语义字典的方法: 这类方法,主要使用WordNet,MeSH这样的在线语义字典来度量两个义项之间的距离。基于WordNet中的概念是由概念间关系连接在一起的,每个概念都通过关系和其他概念相连,而整个WordNet则是由概念和关系组成的巨大的网络。还有基于路径长度的,这是最简单的,Sim(c1,c2) = -log len...原创 2018-10-16 17:57:50 · 9687 阅读 · 0 评论 -
系统学习NLP(六)--语义分析
转自:https://www.jianshu.com/p/7463267b0106对于不同的语言单位,语义分析的任务各不相同。在词的层次上,语义分析的基本任务是进行词义消歧(WSD),在句子层面上是语义角色标注(SRL),在篇章层面上是指代消歧,也称共指消解。词义消歧由于词是能够独立运用的最小语言单位,句子中的每个词的含义及其在特定语境下的相互作用构成了整个句子的含义,因此,词义消歧是...转载 2018-10-15 20:25:58 · 9924 阅读 · 0 评论 -
系统学习NLP(五)--句法分析
转自:https://www.jianshu.com/p/fb408b6a0904 真佩服作者的毅力,把基础概念都敲出来了。。。句法分析的基本任务是确定句子的语法结构或句子中词汇之间的依存关系。句法分析不是一个自然语言处理任务的最终目标,但它往往是实现最终目标的关键环节。句法分析分为句法结构分析和依存关系分析两种。以获取整个句子的句法结构为目的的称为完全句法分析,而以获得局部成分为目的的...转载 2018-10-15 20:03:10 · 10950 阅读 · 0 评论 -
系统学习NLP(四)--数据平滑
转子:https://blog.csdn.net/fuermolei/article/details/81353746在自然语言处理中,经常要计算单词序列(句子)出现的概率估计。但是,算法训练的时候,预料库中不可能包含所有可能出现的序列,因此为了防止对训练样本中为出现的新序列概率估计值为零,人们发明了不少可以改善估计新序列出现的概率算法,即数据的平滑。最常见的数据平滑算法包括如下几种: ...转载 2018-10-14 14:59:51 · 8122 阅读 · 0 评论 -
系统学习NLP(三)--NLP入门综述
从这个月开始,进入NLP方向了,因此,系统了看了一遍《自然语言处理综论》,对NLP做了点系统性的了解,后面抽时间一个一个业务或者方向进行实现学习。这里主要是入门的认识,因此,大多数不涉及每个业务应用的最佳实现,比如基本没有深度学习层面的(因为那本书只总结了2009年之前的),不过有了这个基础,每个业务应用,可以针对性深入了解,作为一个大纲吧。参考:https://www.jianshu.com...原创 2018-10-13 14:52:42 · 8058 阅读 · 2 评论 -
系统学习NLP(二)--语音合成的计算机处理综述
参考:https://blog.csdn.net/zlj925/article/details/79061900 略删改。语音合成跟语音识别,自然语音理解,作为人机交互的基础模块,加上对话管理器,形成人机语音对话系统。语音合成原理语音合成(Text to Speech,TTS)是指将文本通过一系列的信号处理转换为“人造”语音(声学波形)。与简单的录音播放不同,机器进行语音合成时,往往并...转载 2018-10-05 14:54:41 · 7710 阅读 · 0 评论 -
系统学习NLP(一)--语音识别的计算机处理综述
参考:https://blog.csdn.net/u012637501/article/details/42424961从这个月开始,进入NLP方向,《自然语言处理综论》这本书有将近五章介绍了语音的计算机处理,作为阅读笔记又不高兴手打,所以,参考了这篇博客(因为内容差不多类似)。略删改。另外,本书没有深度学习部分的应用,因此,这里只介绍传统语音识别算法。主要还是针对ASR的系统介绍。语...转载 2018-10-05 14:16:09 · 15099 阅读 · 0 评论