独家 | 解析Tansformer模型—理解GPT-3, BERT和T5背后的模型(附链接)

本文介绍了Transformer模型,它是自然语言处理中广泛使用的语言模型,能够应用于翻译、文本生成等多个任务。Transformer克服了循环神经网络的问题,通过位置编码、注意力机制和自注意力机制实现高效并行处理,尤其在大规模数据集上训练后表现出强大能力。BERT、GPT-3和T5等知名模型都是基于Transformer架构。
摘要由CSDN通过智能技术生成


作者:Dale Markowitz

翻译:王可汗

校对:和中华

本文约3800字,建议阅读5分钟

本文为大家介绍自然语言处理中当下最流行的语言模型——Transformer模型。

标签:自然语言处理

你知道这句话吗,当你有一把锤子的时候,所有东西看起来都像钉子? 在机器学习中,我们似乎真的发现了一种神奇的锤子。实际上,在这个模型面前所有东西都是钉子,这就是Transformer模型。Transformer模型可以用来翻译文本、写诗、写文章,甚至生成计算机代码。事实上,我在daleonai.com上写的很多惊人的研究都是建立在Transformer基础之上,比如AlphaFold 2,它是一种从基因序列中预测蛋白质结构的模型,以及GPT-3、BERT、T5、Switch、Meena等功能强大的自然语言处理(NLP)模型。你可能会说,他们不仅仅是遇到了……呃,先往下说吧。

如果你想在机器学习,特别是自然语言处理方面与时俱进,你至少要对Transformer有一点了解。所以在这篇文章中,我们将讨论它们是什么,它们是如何工作的以及为什么它们如此有影响力。

Transformer是一种神经网络结构。简单地说,神经网络是分析图像、视频、音频和文本等复杂数据类型的一种非常有效的模型。针对不同类型的数据有专门优化过的的神经网络。例如,在分析图像时,我们通常会使用卷积神经网络。大体来说,它们模仿了人脑处理视觉信息的方式。

卷积神经网络,图片来自Renanar2,wikiccommons

大约从2012年开始,我们已经用CNN相当成功地解决了视觉问题,比如识别照片中的物体,识别人脸,手写数字识别。但在很长一段时间里,语言任务(翻译、文本摘要、文本生成、命名实体识别等)都没有较好的方法。这很不幸,因为语言是我们人类交流的主要方式。

在2017年推出Transformer之前,我们使用深度学习来理解文本的方法是使用一种称为循环神经网络(RNN)的模型,它看起来像这样:

循环神经网络,图片来自fdeloche,Wikimedia

假设你想把一个句子从英语翻译成法语。RNN将一个英语句子作为输入,一次处理一个单词,然后按顺序吐出对应的法语单词。这里的关键词是“顺序”。在语言中,单词的顺序很重要,你不能随意打乱它们。比如下面的句子:

“Jane went looking for trouble.(简到处找麻烦。)”意思与句子非常不同: “Trouble went looking for Jane” (麻烦到处找简。)

因此,任何能够理解语言的模型都必须捕捉词序,而循环神经网络是通过在一个序列中&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值