改变世界的七大NLP技术，你了解多少？（上）

最新推荐文章于 2024-08-16 11:24:16 发布

ccoran

最新推荐文章于 2024-08-16 11:24:16 发布

阅读量506

点赞数

分类专栏： NLP 文章标签： NLP

NLP 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

作者 | James Le

翻译 | Mandy, Xiaowen

原文

https://yq.aliyun.com/articles/603096?spm=a2c4e.11155435.0.0.5d443312uMd8Cb

NLP？

NLP应用到哪里？

深度学习

技术1：文本嵌入（Text Embeddings）

技术2：机器翻译

技术3：Dialogue和Conversations

NLP？

自然语言处理（NLP）是计算机科学，人工智能和语言学的交叉领域。目标是让计算机处理或“理解”自然语言，以执行语言翻译和问题回答等任务。

随着语音接口和聊天机器人的兴起，NLP正在成为信息时代最重要的技术之一，同时它也是人工智能的关键部分。充分理解和表达语言的含义是一个非常困难的目标。为什么？因为人类的语言很特别。

人类语言有什么特别之处？

1.人类语言是专门为传达说话人的意图而构建的系统。这不仅仅是一个环境信号，更是一个有意识的交流。
2.人类语言大多是离散/符号的/分类的信号系统，大概是因为信号可靠性更高。
3.一种语言的分类符号可以用几种方式编码为通信信号：声音，手势，写作，图像等。人类语言只是其中的一种。
4.人类语言是不明确的（与编程和其他正式语言不同）。因此，在表达、学习和使用语言/情境/情境/文字/视觉知识对人类语言方面存在高度复杂性。

NLP应用到哪里？

从NLP研究领域衍生出了一批快速增长的应用程序。以下是其中几个：

1.拼写检查，关键字搜索，查找同义词；

2.从网站提取信息，例如：产品价格，日期，地点，人员或公司名称；

3.分类：长文档的积极/消极情绪；

4.机器翻译；

5.口语对话系统；

6.复杂的问答系统；

事实上，这些应用程序已经在现实中大量使用，从搜索到在线广告匹配 ; 从自动/辅助翻译到营销或财务/交易的情绪分析 ; 从语音识别到chatbots /对话代理（自动化客户支持，控制设备，订购商品）。

268fe30ccc510f28d7d74cecdec2817e5f41c7bd

深度学习

大部分NLP技术都是由深度学习提供技术支持。近几年，深度学习才开始发挥作用，主要是因为：

·大量的训练数据；

·更快的机器和多核CPU / GPU；

·性能高的新模型和算法：有效的端到端联合系统学习、有效的使用上下文和任务间转换的学习方法，以及正则化优化方法。

在深度学习中，表示学习试图自动学习来自原始输入的良好特征或表示。而在机器学习中手动设计的特征通常过多且不完整，需要花费很长时间进行设计和验证。而且深度学习提供了一个非常灵活、通用且可学习的框架，用于呈现视觉和语言信息的世界。最初，它在语音识别和计算机视觉等领域取得突破。最近，深度学习方法在许多不同的NLP任务中表现出了非常高的性能。这些模型通常可以通过单一的端到端模型进行训练，并且不需要传统的，特定于任务的特征工程。

我最近完成了斯坦福大学关于自然语言处理与深度学习的CS224n课程。该课程全面介绍了将深度学习应用于NLP的尖端研究。在模型方面，它涵盖了词向量表示、基于窗口的神经网络、递归神经网络、长期短期记忆模型、递归神经网络和卷积神经网络，以及一些涉及存储器组件的最新模型。

在此我想分享我学习的7种主要NLP技术以及使用它们的主要深度学习模型和应用程序。

福利：你可以在此GitHub中获得相关课程！

技术1：文本嵌入（Text Embeddings）

在传统的NLP中，我们将单词视为离散符号，然后可以用one-hot向量表示。向量的维度是整个词汇表中单词的数量。单词作为离散符号的问题在于，对于one-hot向量来说，没有自然的相似性概念。因此，另一种方法是学习在向量本身中编码相似性。核心思想是一个词的含义是由经常出现在其旁边的单词给出的。

文本嵌入是字符串的实值向量表示。我们为每个单词建立一个密集的向量，选择它以便类似于类似上下文中出现的单词的向量。对于大多数NLP任务而言，词嵌入被认为是一个很好的起点。它们允许深度学习在较小的数据集上也是有效的，因为它们通常是深度学习体系的第一批输入，也是NLP中最流行的迁移学习方式。在词嵌入中最流行的应该是Word2vec，它是由谷歌（Mikolov）开发的模型，另外一个是由斯坦福大学（彭宁顿，Socher和曼宁）开发的GloVe。接着我们重点介绍这两种模型：

bb4685bac5fca503d1ad3c565d3bf30ffdc3fa18

在Word2vec中，我们有一个庞大的文本语料库，其中固定词汇表中的每个词都由一个向量表示。然后，我们通过文本中的每个位置t，其中有一个中心词c和上下文词o。接下来，我们使用字向量的相似性Ç和Ò计算的概率ø给出Ç（或反之亦然）。我们不断调整单词向量来最大化这个概率。为了有效地训练Word2vec，我们可以从数据集中去除无意义的单词。这有助于提高模型的准确性。

Word2vec有两个变体值得一提：

d1809a8961d50380bf031044c712ff7f0afceaa3

1.Skip-Gram：我们考虑一个包含k个连续项的上下文窗口。然后，我们跳过其中一个单词，尝试学习一个神经网络，该网络可以获得除跳过的所有术语外的所有术语，并预测跳过的术语。因此，如果两个单词在大语料库中反复共享相似的上下文，那么这些术语的嵌入向量将具有相似的向量。

2.Continuous Bag of Words：我们在一个大的语料库中获取大量的句子，每当我们看到一个词，我们就会联想到周围的词。然后，我们将上下文单词输入到神经网络，并预测该上下文中心的单词。当我们有数千个这样的上下文单词和中心单词时，我们就有了一个神经网络数据集的实例。我们训练神经网络，最后编码的隐藏层输出表示一个特定的词嵌入。当我们通过大量的句子进行训练时，类似上下文中的单词会得到相似的向量。

a300e086a0811580d01303c08205f6515e3cc4ba

对Skip-Gram和CBOW的一个吐槽就是它们都是基于窗口的模型，这意味着语料库的共现统计不能被有效使用，导致次优的嵌入（suboptimal embeddings）。

GloVe模型旨在通过捕捉一个字与整个观测语料库的结构嵌入的含义来解决这个问题。为此，该模型训练单词的全局共现次数，并通过最小化最小二乘误差来充分利用统计量，从而产生具有有意义子结构的单词向量空间。这样的做法足以保留单词与向量距离的相似性。

除了这两种文本嵌入外，还有许多最近开发的高级模型，包括FastText，Poincare嵌入，sense2vec，Skip-Thought，Adaptive Skip-Gram，我强烈建议你学习一下。

技术2：机器翻译

机器翻译是语言理解的经典测试。它由语言分析和语言生成组成。大型机器翻译系统具有巨大的商业用途，给你一些值得注意的例子：

· 谷歌翻译每天翻译1000亿字；

· Facebook使用机器翻译自动翻译帖子和评论中的文字，以打破语言障碍，让世界各地的人们相互交流；

· 阿里巴巴使用机器翻译技术来实现跨境贸易，连接世界各地的买家和卖家；

· 微软为Android、iOS和Amazon Fire上的最终用户和开发人员提供基于人工智能的翻译，无论他们是否可以访问互联网。

在传统的机器翻译系统中，我们必须使用平行语料库：一组文本，每个文本都被翻译成一种或多种不同于原文的其他语言。例如，给定源语言f（例如法语）和目标语言e（例如英语），我们需要建立多个统计模型，包括使用贝叶斯规则的概率公式，训练的翻译模型p（f | e）平行语料库和语言模型p（e）在纯英文语料库上训练。这种方法跳过了数百个重要细节，需要大量的手工特征工程，整体而言它是一个非常复杂的系统。

神经机器翻译是通过一个称为递归神经网络（RNN）的大型人工神经网络对整个过程进行建模的方法。RNN是一个有状态的神经网络，它通过时间连接过去。神经元的信息不仅来自前一层，而且来自更前一层的信息。

2c17a658d8c714d10bdbd94975328c71867ff4a5

标准的神经机器翻译是一种端到端神经网络，其中，源语句由称为编码器的RNN 编码，目标词使用另一个称为解码器。RNN编码器一次读取一个源语句，然后在最后隐藏状态汇总整个源句子。RNN解码器使用反向传播学习这个汇总并返回翻译后的版本。神经机器翻译从2014年的一项边缘研究领域发展到2016年广泛采用的领先机器翻译方式，那么，使用神经机器翻译的最大成功是什么？

1.端到端训练：NMT中的所有参数同时被优化，以最大限度地减少网络输出的损耗性能。

2.分布式表示的优势：NMT更好地利用单词和短语的相似性。

3.更好地探索上下文：NMT可以使用更多的上下文——源文本和部分目标文本以此进行更准确地翻译。

4.更流利的文本生成：深度学习文本生成质量高于平行语料库。

RNN的一个大问题是梯度消失（或爆炸）问题，其中取决于所使用的激活函数，随着时间的推移信息会迅速丢失。直观地说，这不会成为一个很大问题，因为这些只是权重而不是神经元状态，但是时间的权重实际上是存储过去的信息的地方，如果权重达到0或1,000,000的值，那么以前的状态将不会提供很多信息。因此，RNNs在记忆序列中的前几个单词时会表现的很困难，并且只能根据最近的单词进行预测。

长期/短期记忆（LSTM）网络试图通过引入门和明确定义的存储器单元来对抗梯度消失/爆炸问题。每个神经元都有一个存储单元和三个门：输入、输出和忘记。这些门的功能是通过停止或允许信息流来保护信息。

·输入门决定了来自上一层的多少信息存储在单元中；

·输出层在另一端获取任务，并确定下一层有多少单元知道该单元的状态。

·忘记门的作用起初看起来很奇怪，但有时候忘记门是个不错的设计：如果它正在学习一本书并开始新的一章，那么网络可能需要忘记前一章中的一些字符。

已经证明LSTM能够学习复杂的序列，例如像莎士比亚的写作或者创作原始音乐。请注意，这些门中的每一个都对前一个神经元中的一个单元具有权重，因此它们通常需要更多资源才能运行。LSTM目前非常流行，并且在机器翻译中被广泛使用。除此之外，它是大多数序列标签任务的默认模型，其中有大量的数据。

05b16b6bb566445f934dd3c07809944137423ce9

门控重复单元（GRU）是在LSTM的基础上变形得来的，也是神经机器翻译的扩展。它拥有更少的门，并且连接方式略有不同：它不是输入、输出和忘记门组成的，而是具有更新门。这个更新门决定了从最后一个状态开始保留多少信息以及从上一个层开始输入多少信息。

复位（reset）门的功能与LSTM的忘记（forget）门非常相似，但位置稍有不同。他们总是发出它们完整的状态因为他们没有输出门。在大多数情况下，它们的功能与LSTM非常相似，最大的不同之处在于GRUs稍快并且更容易运行（但表现力稍差）。在实践中，这些往往会互相抵消，因为你需要一个更大的网络来重新获得一些表示能力，这反过来又抵消了性能的优势。在一些情况下，GRU可以胜过LSTM。

a69565f6b94ccb846947f01079c4f6504a3c8cda

除了这三大体系结构之外，过去几年神经机器翻译系统还有进一步的改进。以下是最显着的发展：

· 用神经网络进行序列学习的序列证明了LSTM在神经机器翻译中的有效性。它提出了序列学习的一种通用的端到端方法，对序列结构进行了最少的假设。该方法使用多层Long Short Term Memory（LSTM）将输入序列映射为固定维度的向量，然后使用另一个深度LSTM从向量解码目标序列。

· 通过联合学习对齐和翻译的神经机器翻译引入了NLP中的注意机制（将在下一篇文章中介绍）。认识到使用固定长度矢量是提高NMT性能的瓶颈，作者建议通过允许模型自动（软）搜索与预测目标相关的源句子部分来扩展，而不必将这些部分明确地形成为一个固定的长度。

· 用于神经机器翻译的循环编码器上的卷积利用附加的卷积层增强NMT中的标准RNN编码器，以在编码器输出中捕捉更广泛的上下文。

· 谷歌的神经机器翻译，它解决了准确性和部署方便性的问题。该模型由一个深度LSTM网络组成，该网络包含8个编码器和8个解码器层，使用残余连接以及从解码器网络到编码器的注意力连接。

· Facebook AI研究人员不使用递归神经网络，而是使用卷积神经网络序列对NMT中的学习任务进行排序。

技术3：Dialogue和Conversations

关于会话AI的文章很多，其中大部分着重于垂直聊天机器人，商业趋势和创业机会（比如Amazon Alexa，Apple Siri，Facebook M，Google Assistant，Microsoft Cortana）。人工智能理解自然语言的能力仍然有限。因此，创建全自动的对话助理仍然是一个巨大的挑战。尽管如此，下面将要介绍的内容对于想要在对话AI中寻求下一个突破的人们来说是一个很好的起点。

6763891df3eb6a8f33fc8591e34163003aad0c23

来自蒙特利尔、乔治亚理工学院、微软和Facebook的研究人员构建了一个能够产生上下文敏感的会话响应的神经网络。这种新颖的响应生成系统是在大量的非结构化Twitter对话上进行端对端训练。循环神经网络架构用于解决将上下文信息集成到经典统计模型时出现的稀疏性问题，使系统能够考虑以前的对话话语。该模型显示了对上下文敏感和非上下文敏感的机器翻译和信息检索的所有优势。

香港开发的神经反应机器（NRM）是一种基于神经网络的短文对话生成器。它采用通用的编码器-解码器框架。首先，它将响应的生成的形式化为基于输入文本的潜在表示的解码过程，而编码和解码都是用递归神经网络实现的。NRM通过从微博服务收集的大量谈话数据进行训练。实验表明，NRM可以对超过75％的输入文本产生语法正确当反应，在同样的环境中表现优于现有技术。

eb1acf4c7963829f05be4c04f219a5b21a82abbb