Transformer 基本原理

概述

在自然语言处理中,我们常用的主流框架会包括卷积神经网络,但是卷积神经网络有一个特点,就是连续。连续的意思可以理解为,我们的输入在转化成 state 的过程中,依赖前一个过程中的 state,这样每个值都和之前的数据相关联,那如果是距离较远的数据,计算就会变得复杂。Transformer 的出现很大程度上提高了 Sequence 的计算效率,使两者距离较远的数据也可以接收到操作,相当于 relate 这些操作到不同距离上。因为在处理自然语言过程中,我们会使用 Encoder-Decoder 的机制,所以 Sequence 是无法避免的,但 Transformer 很有效的规避了其局限性,对于程序员而言,可以理解成同步的数据变得可以并发执行,这样大大提升了运行效率,但 Transformer 还不止于此,在提升效率的基础上,benchmark 的值也提升了。

Encoder-Decoder

Transformer 本质上使用 Encoder-Decoder,但在 EncoderDecoder 的两层连接变成全连接。全连接可以理解成,每一层的任意一个 neuron 都和另一层的任意一个 neuron 相连接。

Attention

Attention 方法接收三个参数,querykeyvaluekey-value 是一对,可以理解成 tuple。这里我们这里使用大写的 Q 和 K 来表示并发执行后的 querykeyvalue。Attention 会先内积 QK,在 scale 一下其结果后,与 V 相乘,最后使用 softmax 转化成一个概率数。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值