论文翻译:Recent Trends in Deep Learning Based Natural Language Processing

摘要

深度学习方法采用多个处理层来学习数据的层次表示,并在许多领域中产生了最先进的结果。 最近,在自然语言处理(NLP)的背景下,各种模型设计和方法蓬勃发展。 在本文中,我们回顾了已经用于大量NLP任务的重要深度学习相关模型和方法,并提供了它们演变的演练。 我们还对各种模型进行了总结,比较和对比,并对NLP深度学习的过去,现在和未来进行了详细的了解。

1、引言

自然语言处理(NLP)是一种理论驱动的计算技术,用于人类语言的自动分析和表示。 NLP研究已经从打卡和批量处理的时代演变而来,其中句子的分析可能需要长达7分钟,直到谷歌及其类似的时代,其中数百万个网页可以在少于 一秒钟[1]。 NLP使计算机能够在各个层面执行各种与自然语言相关的任务,从解析和词性(POS)标记到机器翻译和对话系统。
深度学习架构和算法已经在计算机视觉和模式识别等领域取得了令人瞩目的进步。 遵循这一趋势,最近的NLP研究现在越来越关注使用新的深度学习方法(见图1)。 几十年来,针对NLP问题的机器学习方法基于在非常高维度和稀疏特征上训练的浅模型(例如,SVM和逻辑回归)。 在过去几年中,基于密集向量表示的神经网络已经在各种NLP任务上产生了优异的结果。 这种趋势是由词嵌入[2,3]和深度学习方法[4]的成功引发的。 深度学习可实现多级自动特征表示学习。 相比之下,传统的基于机器学习的NLP系统在很大程度上依赖于手工制作的功能。 这种手工制作的功能耗费时间,而且往往不完整。
  Collobert等人 [5]证明了一个简单的深度学习框架在几个NLP任务中表现优于大多数最先进的方法,例如命名实体识别(NER),语义角色标记(SRL)和POS标记。 从那时起,已经提出了许多基于复杂深度学习的算法来解决困难的NLP任务。 我们回顾了应用于自然语言任务的主要深度学习相关模型和方法,例如卷积神经网络(CNN),递归神经网络(RNN)和递归神经网络。 我们还讨论了记忆增强策略,注意力机制以及无监督模型,强化学习方法以及最近的深度生成模型如何用于语言相关任务。
  据我们所知,这项工作是第一个全面涵盖当今NLP研究中最流行的深度学习方法的工作。 Goldberg [6]的工作仅以教学方式介绍了将神经网络应用于NLP的基本原则。 我们相信本文将为读者提供有关该领域当前实践的更全面的概念。
  论文的结构如下:第二节介绍了分布式表示的概念,是复杂深度学习模型的基础; 接下来,第III,IV和V节讨论流行模型,如卷积,递归和递归神经网络,以及它们在各种NLP任务中的使用; 接下来,第六节列出了NLP中强化学习的最新应用以及无监督句子表示学习的新发展; 后来,第七节阐述了深度学习模型与内存模块耦合的最新趋势; 最后,第八部分总结了关于主要NLP主题的标准数据集的一系列深度学习方法的表现。

2、分布式表示(词向量)

统计NLP已成为建模复杂自然语言任务的主要选择。 然而,在开始时,它经常习惯于在学习语言模型的联合概率函数时遭受臭名昭着的维度诅咒。 这导致了学习低维空间中存在的单词的分布式表示的动机[7]。
###A.词嵌入###
 分布向量或单词嵌入(图2)基本上遵循分布假设,根据该假设,具有相似含义的词倾向于在类似的上下文中出现。 因此,这些向量试图捕获单词的邻居的特征。 分布向量的主要优点是它们捕获单词之间的相似性。 使用诸如余弦相似性的度量来测量矢量之间的相似性是可能的。 词嵌入通常用作深度学习模型中的第一个数据处理层。 通常,通过优化大的未标记语料库中的辅助目标来预训练单词嵌入,例如基于其上下文预测单词[8,3],其中所学习的单词向量可以捕获一般的句法和语义信息。 因此,已经证明这些嵌入在捕获上下文相似性方面是有效的,类比并且由于其较小的维度,在计算核心NLP任务时是快速且有效的。
 多年来,创建这种嵌入的模型一直是浅层神经网络,并且不需要深层网络来创建良好的嵌入。 然而,基于深度学习的NLP模型总是使用这些嵌入来表示他们的单词,短语甚至句子。 这实际上是传统的基于字数的模型和基于深度学习的模型之间的主要区别。 词嵌入一直是各种NLP任务中最先进结果的原因[9,10,11,12]。
 例如,Glorot等人 [13]在情感分类中使用嵌入和叠加去噪自动编码器进行域自适应,Hermann和Blunsom提出了组合分类自动编码器来学习句子的组合性。 它们在最近的文献中的广泛使用表明它们在执行NLP任务的任何深度学习模型中的有效性和重要性。
 分布式表示(嵌入)主要通过上下文来学习。在20世纪90年代,一些研究发展[15]标志着分布语义研究的基础。 [16,17]提供了这些早期趋势的更详细的总结。后来的发展是对这些早期作品的改编,这导致创建了主题模型,如潜在的Dirichlet分配[18]和语言模型[7]。这些作品奠定了表征学习的基础。 2003年,Bengio等人 [7]提出了一种神经语言模型,它可以学习单词的分布式表示(图3)。作者认为,这些单词表示一旦被编译成使用单词序列的联合概率的句子表示,就实现了指数数量的语义相邻句子。反过来,这有助于推广,因为如果已经看到具有相似单词(关于附近的单词表示)的单词序列,则看不见的句子现在可以收集更高的置信度。
 [19]是第一部展示预训练单词嵌入效用的作品。 作者提出了一种神经网络架构,它构成了许多当前方法的基础。 该工作还建立了单词嵌入作为NLP任务的有用工具。 然而,单词嵌入的巨大优化可以说是由于[3],他们提出了连续词袋(CBOW)和skip-gram模型来有效地构建高质量的分布式矢量表示。 推动它们的受欢迎程度是表现出组合性的载体的意外副作用,即,添加两个单词向量导致向量是单个词的语义合成,例如“man”+“royal”=“king”。 Gittens等人最近给出了这种行为的理论依据。 [20],其中指出仅在保持某些假设时才能看到组合性,例如,假设词需要在嵌入空间中均匀分布。
 Pennington等人 [21]是另一种着名的单词嵌入方法,它基本上是一种“基于计数”的模型。 这里,通过对计数进行归一化并对它们进行对数平滑来预处理单词共现计数矩阵。 然后对该矩阵进行分解以获得较低维度的表示,这通过最小化“重建损失”来完成。 下面,我们提供Mikolov等人提出的word2vec方法的简要描述。[3]
###B.Word2vec###
 Mikolov等人彻底改变了词嵌入。 [8,3]提出了CBOW和skip-gram模型。 在给定围绕目标词的上下文词在大小为k的窗口上,CBOW计算目标词的条件概率。 另一方面,skip-gram模型通过预测给定中心目标词的周围上下文词,与CBOW模型完全相反。 假设上下文词在与两个方向上的窗口大小相等的距离内与目标词对称地定位。 在无监督设置中,单词嵌入维度由预测的准确性决定。 随着嵌入维数的增加,预测的准确性也会增加,直到它在某个点收敛,这被认为是最佳的嵌入维度,因为它是最短的而不会影响准确性。
 让我们考虑CBOW模型的简化版本,其中在上下文中仅考虑一个单词。 这基本上复制了一个二元语言模型。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值