从编解码和词嵌入开始,一步一步理解Transformer,注意力机制(Attention)的本质是卷积神经网络(CNN)(2)

1.1神经网络基础

在这里插入图片在这里插入图片描述
描述

一个神经网络的隐藏层,就是在进行一次空间变换。其中隐藏元的个数,就是空间变换后 的维度。你可以升维,也可以降维。神经网络的运算,不仅有乘法,还要加上一层偏置b。相当于空间里的向量在进行w矩阵拉伸后,又进行了一次平移操作。另一个点是数据在进行完线性计算之后,还要进行一个非线性的激活函数。因为只有在引入激活函数才能让模型描述更加复杂的内容。

1.1.2为什么增加更多的神经元,就可以有更多的能力。
因为可以理解成隐藏层是对上一层的数据进行抽象。
在这里插入图片描述

在这里插入图片描述

1.2 词嵌入

对升维和降维有了基本了解后,再去了解编码,就相对容易了。编码就是先把一个文本里的token,都先变成独热码,然后进行降维,这个过相当于把输入的一句话根据语义投射到潜空间。把高维里的一个对象投射到低维空间,这个过程叫embbing ,也就是嵌入。嵌入额数据不一定是单词,但是在语言处理这个领域就是token,这个过程也叫词嵌入。使用的是矩阵乘法。
编解码也就是赛博版的曹冲称象,大象不好操作,那就等价的把他变成石头

1.2.1编码和解码里的码或者潜空间代表的是什么?
他其实描述的内容就是,AI不再像哲学家约翰赛尔提出的中文屋子的问题。他不懂中文,你给他一句中文,他完全在屋子里查找中文手册,然后再输出。潜空间就是一个纯粹的语义空间,一个token被嵌入后,就变成了一个多维的向量,向量的每一个维度,都代表了一个独立的语义。
在这里插入图片描述
维度都是一个一个的语义,如果换成图片的话,每一个维度都是一个一个的RGB通道。每一张图片都有rgb三个通道,数据迭代在一次,才是一个完整图片的语义。一个token完整的语义,也必须是把潜空间上,所有维度的数据都放在一起,才有意义。

在这里插入图片描述
词向量和矩阵相乘可以升维和降维,通过升维或降维才有意义,在CNN里面,就是通过11的卷积核实现类似的功能。一个11的卷积核可以把,图像里的所有的通道合成一个通道。有多少个1*1的卷积核,最后的结果就有多少个通道(也就是有多少维度)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值