利用 Universal Transformer，翻译将无往不利！

最新推荐文章于 2024-08-14 13:59:47 发布

Google_Developer

最新推荐文章于 2024-08-14 13:59:47 发布

阅读量575

点赞数

本文链接：https://blog.csdn.net/Google_Developer/article/details/82416618

版权

Google Brain Team的研究人员介绍了Universal Transformer，这是一种扩展的Transformer模型，通过时间并行循环方式增强了处理语言理解任务的能力，尤其在翻译质量和速度上超越了标准Transformer和RNN。该模型能动态调整计算步骤，针对复杂任务分配更多资源，实现在多种任务上的优秀表现。

摘要由CSDN通过智能技术生成

文 / Google Brain Team 的研究科学家 Stephan Gouws、阿姆斯特丹大学的 Mostafa Dehghani 博士生、谷歌研究实习生

来源 | 谷歌开发者公众号

去年，我们发布了 Transformer，这是一种新的机器学习模型，相较现有的机器翻译算法和其他语言理解任务，成效卓著。在 Transformer 之前，大多数基于神经网络的机器翻译方法依赖于循环运算的递归神经网络（RNN），它们使用循环（即每一步的输出都进入下一步）按递归顺序运行（例如，逐字翻译句中的单词）。虽然 RNN 在建模序列方面非常强大，但它们的顺序性本质意味着它们训练起来非常缓慢，因为长句需要更多的处理步骤，并且其繁复循环的结构也使训练难上加难。

相较于基于 RNN 的方法，Transformer 不需要循环，而是并行处理序列中的所有单词或符号，同时利用自醒机制将上下文与较远的单词结合起来。通过并行处理所有单词，并让每个单词在多个处理步骤中处理句子中的其他单词，使 Transformer 的训练速度比起复制模型要快得多。值得注意的是，与此同时其翻译结果也比 RNN 好得多。然而，在更小、更结构化的语言理解任务中，或是简单的算法任务诸如复制字符串（例如，将 “abc” 的输入转换为 “abcabc”）上，Transformer 则表现欠佳。相比之下，在这方面表现良好的模型，如神经 GPU 和神经图灵机，在大规模语言理解任务（如翻译）中溃不成军。

在《Universal Transformer》一文中，我们使用新颖高效的时间并行循环方式将标准 Transformer 扩展为计算通用（图灵完备）模型