最新自然语言处理(NLP)四步流程：Embed->Encode->Attend->Predict

最新推荐文章于 2024-08-04 18:53:40 发布

csdn_csdn__AI

最新推荐文章于 2024-08-04 18:53:40 发布

阅读量3.1k

点赞数 1

文章标签：自然语言处理词向量

本文链接：https://blog.csdn.net/heyc861221/article/details/80126819

版权

本文介绍了自然语言处理的最新趋势，将深度学习模型分为四个步骤：词向量 Embed、编码 Encode、注意力机制 Attend 和预测 Predict。通过这种方法，模型能处理各种NLP任务，如自然语言推测和文档分类。文中还探讨了词向量、双向RNN、注意力机制的重要性，并给出两个实例来说明这一新方法的应用。

摘要由CSDN通过智能技术生成

原文： Embed, encode, attend, predict: The new deep learning formula for state-of-the-art NLP models
作者： Matthew Honnibal
译者： KK4SBB 审校：王艺
责编：何永灿，关注人工智能，投稿请联系 heyc@csdn.net 或微信号 289416419

过去半年以来，自然语言处理领域进化出了一件神器。此神器乃是深度神经网络的一种新模式，该模式分为：embed、encode、attend、predict四部分。本文将对这四个部分娓娓道来，并且剖析它在两个实例中的用法。

人们在谈论机器学习带来的提升时，往往只想到了机器在效率和准确率方面带给人们的提升，然而最重要的一点却是机器学习算法的通用性。如果你想写一段程序来识别社交媒体平台上的侮辱性帖子，就把问题泛化为“需要输入一段文本，预测出文本的类别ID”。这种分类与识别侮辱性帖子或是标记电子邮件类别之类的具体任务无关。如果两个问题的输入和输出类型都一致，那我们就应复用同一套模型的代码，两者的区别应该在于送入的训练数据不同，就像我们使用同一个游戏引擎玩不同的游戏。

笔者用spaCy和Keras实现了自然语言推理的可分解注意力模型。代码已经上传到github

假设你有一项强大的技术，可以预测实数稠密向量的类别标签。只要输入输出的格式相同，你就能用这项技术解决所有的问题。与此同时，你有另一项技术，可以用一个向量和一个矩阵预测出另一个向量。那么，现在你手里就握着三类问题的解决方案了，而不是两类。为什么是三类呢？因为如果第三类问题是通过矩阵和一个向量，得到一个类别标签，显然你可以组合利用前两种技术来解决。大多数NLP问题可以退化成输入一条或多条文本的机器学习问题。如果我们能将这些文本转化为向量，我们就可以复用现有的深度学习框架。接下来就是具体的做法。

文本类深度学习的四部曲

嵌入式词语表示，也被称为“词向量”，是现在最广泛使用的自然语言处理技术之一。词向量表示是一种既能表示词本身又可以考虑语义距离的表示方法。然而，大多数NLP问题面对的不是单个词语，而是需要分析更长的文本内容。现在有一个简单而灵活的解决方案，它在许多任务上都表现出了卓越的性能，即RNN模型。将文本用一个向量的序列表示之后，使用双向RNN模型将向量编码为一个句子向量矩阵。这个矩阵的每一行可以理解为词向量 —— 它们对句子的上下文敏感。最后一步被称为注意力机制。这可以将句子矩阵压缩成一个句子向量，用于预测。