从编解码和词嵌入开始，一步一步理解Transformer，注意力机制(Attention)的本质是卷积神经网络(CNN)（2）

本文链接：https://blog.csdn.net/qq_20466297/article/details/139904511

1.1神经网络基础

在这里插入图片在这里插入图片描述
描述

一个神经网络的隐藏层，就是在进行一次空间变换。其中隐藏元的个数，就是空间变换后的维度。你可以升维，也可以降维。神经网络的运算，不仅有乘法，还要加上一层偏置b。相当于空间里的向量在进行w矩阵拉伸后，又进行了一次平移操作。另一个点是数据在进行完线性计算之后，还要进行一个非线性的激活函数。因为只有在引入激活函数才能让模型描述更加复杂的内容。

1.1.2为什么增加更多的神经元，就可以有更多的能力。
因为可以理解成隐藏层是对上一层的数据进行抽象。
在这里插入图片描述

在这里插入图片描述

1.2 词嵌入

对升维和降维有了基本了解后，再去了解编码，就相对容易了。编码就是先把一个文本里的token，都先变成独热码，然后进行降维，这个过相当于把输入的一句话根据语义投射到潜空间。把高维里的一个对象投射到低维空间，这个过程叫embbing ，也就是嵌入。嵌入额数据不一定是单词，但是在语言处理这个领域就是token，这个过程也叫词嵌入。使用的是矩阵乘法。
编解码也就是赛博版的曹冲称象，大象不好操作，那就等价的把他变成石头

1.2.1编码和解码里的码或者潜空间代表的是什么？
他其实描述的内容就是，AI不再像哲学家约翰赛尔提出的中文屋子的问题。他不懂中文，你给他一句中文，他完全在屋子里查找中文手册，然后再输出。潜空间就是一个纯粹的语义空间，一个token被嵌入后，就变成了一个多维的向量，向量的每一个维度，都代表了一个独立的语义。
在这里插入图片描述
维度都是一个一个的语义，如果换成图片的话，每一个维度都是一个一个的RGB通道。每一张图片都有rgb三个通道，数据迭代在一次，才是一个完整图片的语义。一个token完整的语义，也必须是把潜空间上，所有维度的数据都放在一起，才有意义。