![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
Miracle_520
坚持每天读几页书
展开
-
自然语言处理中的语言模型预训练方法(ELMo、GPT和BERT)
自然语言处理中的语言模型预训练方法(ELMo、GPT和BERT) 自然语言处理中的语言模型预训练方法(ELMo、GPT和BERT) 最近,在自然语言处理(NLP)领域中,使用语言模型预训练方法在多项NLP任务上都获得了不错的提升,广泛受到了各界的关注。就此,我将最近看的一些相关论文进行总结,选取了几个代表性模型(包括ELMo [1],OpenAI GPT [2]和BERT [3...转载 2020-04-01 21:15:01 · 603 阅读 · 0 评论 -
fit()和transform()的区别
https://blog.csdn.net/weixin_38278334/article/details/82971752转载 2019-08-29 16:08:28 · 176 阅读 · 0 评论 -
自然语言处理中的词向量问题
单词向量(word embedding)将每一个单词表示成一个相对较低维度的向量(比如100维或200维)。语义相近的单词,其对应的单词向量在空间中的距离也应该接近(单词语义上的相似度可以用空间中的距离来描述)。还可以通过单词向量进行单词之间的运算。...原创 2019-06-23 19:02:33 · 385 阅读 · 0 评论 -
第一章 语言处理与Python
import nltknltk.download()#从NLTK的book模块加载所有东西from nltk.book import *#搜索文本,词语索引使我们看到词的上下文text1.concordance('monstrous')#哪些词出现在相似的上下文中?text1.similar('monstrous')#研究两个或两个以上的词共同的上下文text2.common_c...原创 2019-05-31 20:35:51 · 156 阅读 · 0 评论 -
心得
当学习一个新的结构时,不要考虑“它可以替换哪一个现有的组件?”或“我如何使用它解决一个任务”,而是“我该如何把它整合进我的组件库中并将它与其他组件结合实现一个想要的结果?”...转载 2019-03-04 10:47:55 · 89 阅读 · 0 评论 -
RNN建模:接收器和生成器
RNN 最简单的应用就是作为一个接收器:读入一个序列,最后产生一个二值或者多分类的结果。RNN是能力很强的学习序列的工具,能够发掘出很复杂的模式。作为特征提取器的RNN:1.词性标注框架:深度双向RNN给定一个含有n个词语的句子,使用一个特征提取函数来把句子转化为输入向量x。输入向量将会被送入一个深度双向RNN中,产生一个输出向量y。每个向量y将被送入到一个MLP中,用于从可能的k个标签中...原创 2019-09-10 10:38:58 · 253 阅读 · 0 评论 -
展望
截至到现在,神经网络本质上仍然是有监督方法,且需要较大规模的有标注训练数据。尽管预训练词向量的使用为半监督学习提供了便利的平台,但是在如何有效利用未标注数据并减少对于有标注样本的依赖问题上,我们仍然处于非常初级的阶段。请记住,人类通常可以从少数样本中进行泛化,而神经网络往往需要至少数百个标注样本才能表现得不错—即使在最简单得语言任务中。寻找有效的方式来同时利用少量的标注数据和大量未标注数据,以及跨...转载 2019-03-06 16:26:27 · 138 阅读 · 0 评论 -
眼动预测与句子压缩
眼睛预测任务是一种认知任务,它和人类阅读书面语言的方式相关。在阅读时,我们的眼睛在页面上移动,固定在一些单词上,跳过其他单词,并经常跳回到之前的单词。人们普遍认为,阅读时眼睛的移动反映了大脑的句子处理机制,反过来又反映了句子的结构。眼动仪时一种可以在阅读时准确跟踪眼动的仪器,目前有一些眼动追踪的语料,其中包含句子以及对于多个人类对象的准确眼动测量的数据对。在眼动预测任务中,网络通过训练文本上眼动行...转载 2019-03-06 15:55:12 · 203 阅读 · 0 评论 -
级联、多任务与半监督学习
在处理自然语言时,我们常常会遇到多个任务相互依赖的情形。例如,句法分析器以词性标记作为输入,而词性标记本身也是由一个统计模型自动预测得到的。将一个模型的预测结果作为另一个模型的输入,当两个模型相互独立时,称为一个流水线(pipeline)系统。另一种方法是模型级联(model cascading)。在模型级联中,不是将模型A的预测结果作为模型B(句法分析器)的输入,而是将有助于词性预测的中间表示作...转载 2019-03-06 15:14:43 · 1332 阅读 · 0 评论 -
循环神经网络中的梯度消失问题及其解决办法
从直觉上来讲,RNN可以被视为不同层之间共享相同参数的、非常深的前馈网络。对于S-RNN,梯度包括了对于同一个矩阵W的重复的乘法,因而使得梯度非常容易消失或者爆炸。门机制在某种程度上通过避免对单一矩阵进行重复的乘法操作从而缓解了这一问题。想进一步的了解RNN中的梯度消失和梯度爆炸问题,参考Bengio等人[2016]中的10.7节。想要了解在LSTM(GRU)中使用门结构的动机以及它们和解决RN...转载 2019-03-05 14:27:16 · 4221 阅读 · 0 评论 -
参考文献
如何在语言模型上使用S-RNN,参考Mikolov[2012]的博士论文。进一步了解LSTM结构参考Alex Graves[2008]的博士论文以及Chris Olah的描述:http://colah.github.io/posts/2015-08-Understanding-LSTMs/。训练LSTM网络时,Jozefowicz等人[2015]强烈建议将遗忘门的偏置项设置为接近1的值。...转载 2019-03-05 14:19:26 · 880 阅读 · 0 评论 -
LSTM
长短期记忆网络结构被设计用于解决梯度消失问题,并且是第一种引入门机制的结构。LSTM结构明确地将状态向量分解为两部分,一半称为“记忆单元”,另一半是运行记忆。记忆单元被设计用来保存跨时间的记忆以及梯度信息,同时受控于可微门组件—模拟逻辑门的平滑数学函数。在每一个输入状态上,一个门被用来决定有多少新的输入加入记忆单元,以及记忆单元中现有的多少记忆应该被忘记。...转载 2019-03-05 14:13:49 · 114 阅读 · 0 评论 -
门结构简介
因为梯度消失的问题[Pascanu et al. , 2012],S-RNN很难有效地训练。误差信号(梯度)在反向传播过程中到达序列的后面部分时迅速减少,以至于无法到达先前的输入信号的位置,这导致S-RNN难以捕捉到长距离依赖信息。因此,LSTM[Hochreiter and Schmidhuber, 1997]和GRU[Chp et. , 2014b]等基于门的结构被设计出来,用于解决这一问题。...转载 2019-03-05 09:41:59 · 2102 阅读 · 0 评论 -
RNN
CBOW的表示允许将任意长度的序列编码成特定维度的向量。然而,CBOW的表示非常局限并且强制性地忽略了特征的序关系。卷积神经网络(RNN)同样允许将序列编码成特定维度的向量。尽管卷积神经网络得到的表示由于对词序较敏感而优于CBOW,但这种序敏感程度大多仅限于局部模式内,并没有考虑到模式间的顺序,从而使得这种表示与真正的序列存在较大差距(层次化和膨胀卷积结构的确有可能捕获序列内部相对对长距离的依赖...转载 2019-03-05 09:12:32 · 203 阅读 · 0 评论 -
第13章 RNN扩展阅读
层次化和膨胀卷积池化结构在计算机视觉领域非常普遍,其中提出的各种包含许多不同步长的卷积池化的结合的深度结构得到了非常好的图片分类和目标识别结果[He et al. , 2016, Krizhevsky et al. , 2012, Simonyan and Zisserman, 2015]。这些深度结构在NLP中的使用还处于初级阶段。Zhang等人[2015]给出了用于文本分类的字符级层次化卷积的...转载 2019-03-05 08:43:15 · 121 阅读 · 0 评论 -
opencc实现繁体转化为简体
下载xml.bz2原创 2018-12-22 16:08:48 · 413 阅读 · 0 评论