什么是 Transformer 模型以及它们如何工作?

原文地址:What Are Transformer Models and How Do They Work?

2023 年 4 月 12 日

长话短说:

Transformer 是机器学习的一项新发展,最近引起了很大的关注。他们非常擅长跟踪上下文,这就是为什么他们写的文本有意义。在这篇博文中,我们将介绍它们的架构以及它们的工作方式。

视频播放地址: https://youtu.be/tsbRdJbJi9U

Transformer 模型是机器学习领域最令人兴奋的新发展之一。它们在论文《Attention is All You Need》中进行了介绍。Transformer可以用来写故事、散文、诗歌、回答问题、语言之间的翻译、与人类聊天,甚至可以通过对人类来说很难的考试!但它们是什么?您会很高兴知道 Transformer 模型的架构并不那么复杂,它只是一些非常有用的组件的串联,每个组件都有自己的功能。在这篇文章中,您将学习所有这些组件。

这篇博文包含简单的概念介绍。有关Transformer模型及其工作原理的更详细描述,请查看同样来自Cohere的Jay Alammar的这两篇优秀文章!

简而言之,Transformer有什么作用?想象一下您正在手机上写短信。每个单词之后,您可能会收到建议的三个单词。例如,如果您输入“Hello, how are”,手机可能会建议“you”或“your”等单词作为下一个单词。当然,如果你继续选择手机中的建议单词,你很快就会发现这些单词形成的消息毫无意义。如果您查看每组 3 或 4 个连续单词,它可能有意义,但这些单词不会连接到任何有意义的内容。这是因为手机中使用的模型不包含消息的整体上下文,它只是预测在最后几个单词之后更有可能出现哪个单词。另一方面,Transformer会跟踪正在编写的内容的上下文,这就是为什么他们编写的文本有意义。

手机可以建议短信中使用的下一个单词,但无法生成连贯的文本。

我必须诚实地告诉你,当我第一次发现 Transformer 一次构建一个单词的文本时,我简直不敢相信。首先,这不是人类形成句子和思想的方式。我们首先形成一个基本的想法,然后开始完善它并为其添加文字。这也不是机器学习模型做其他事情的方式。例如,图像不是以这种方式构建的。大多数基于神经网络的图形模型都会形成图像的粗略版本,然后慢慢对其进行细化或添加细节,直到完美为止。那么为什么 Transformer 模型要逐字构建文本呢?一个答案是,因为这确实非常有效。更令人满意的是,因为Transformer非常擅长跟踪上下文,所以他们选择的下一个单词正是它需要继续实现一个想法。

Transformer是如何训练的?事实上,有大量数据,互联网上的所有数据。因此,当您将句子“Hello, how are”输入到Transformer中时,它只是知道,根据互联网上的所有文本,最好的下一个单词是“you”。如果你

  • 17
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值