常见的深度学习基础模块总结

skyeah_

已于 2024-07-19 01:27:34 修改

阅读量1k

点赞数 17

文章标签：深度学习人工智能

于 2024-05-17 09:28:09 首次发布

本文链接：https://blog.csdn.net/skyeah_/article/details/138921593

版权

CNN: 假设n个33卷积小权重矩阵，对m特征维度的图像卷积（如RGB彩色图像，m=3），m个特征图像每个图像都用n个卷积提取特征，所以参数维度为mn33。特征图在有padding的情况下基本不是靠卷积缩小的，而是靠池化，所以CNN就是一次卷积一次池化一次卷积一次池化，最后假设比如特征图变小成了1616m，最后展平输入到MLP后续。
RNN:同时运用t时刻输入的信息和t-1时刻的信息，每个时序节点如是。其主要特点是拥有循环结构，每个时间步的输出依赖于前一个时间步的输出。适用于时间序列预测、语言建模、语音识别等任务。
seq2seq: 早期的seq2seq是由两个 RNN（或其变种）组成的编码器和解码器，后期的也有基于transformer，输入和输出的序列长度可以不同
LSTM（Long Short-Term Memory）：可以看作是RNN的加强版本，旨在解决标准RNN在处理长序列数据时所遇到的梯度消失和梯度爆炸问题。利用四个门分别赋予过去信息和当前信息的权重，使得它可以根据数据自动调整信息保留和丢弃的比例，适应不同类型的序列数据。
Transformer:输入输出token长度可以不一致。先position embedding，也就是每个输入token都给你套上个位置信息。然后输入embedding乘上Q其实还是可以理解成原Token表示（就加了个权重），乘上K后，就变成了token之间的正方形相关矩阵（假设输入“我爱你”，编码为123，那第一行相关矩阵是【1 * 1，1 * 2，1 * 3】）。再乘以一个V，V的每一列可以看成【1，2，3】，那么【QK】的第一行乘以V每一列，每个数结果都是【111+122+133】（乘号省略），这些数形成的列表，就是【QK】*V的第一行。因此它的第一行也还都是和1相关的，可以作为1的表示。在这个列表中，融合了1的自身情况与其他2，3token的相关情况，2，3的位置情况。所以是一个很好的表示

Bert： 1. 只用了transformer的编码器，并用双向编码器，以获得左右上下文信息，预训练有随机mask输入token并预测、判断两个句子是否是连续的句子 2. BERT的输入是一个固定长度的序列（通常由[CLS]和[SEP]标记组成）。它的输出是同样长度的序列，其中每个词都有对应的表示向量。3. BERT并不生成一个完全新的序列（不像典型的Seq2Seq模型会生成目标序列）。相反，BERT输出的序列用于进一步处理或作为下游任务的输入。

GCN(参考 GCN，GAT关系)：类似于CNN，运用卷积的思想，同一个图周围的邻居节点
在这里插入图片描述
在GCN中，很大借鉴了拉普拉斯矩阵的做法：

可以看到，W非常固定，比如第i个节点就配备第Wi，每次迭代，都是同一个Wi去迭代。

GAT：在这里插入图片描述
可以看到GAT借鉴transformer，计算节点两两之间的相关性，注意hi前面和hj前面的W不是一套W，很像transformer里面的Q和K，计算相关，两两相关的节点各自有一套自己的权重。

上图中hj前面的W就很像transformer里面的V。

VIT（Vision transformer）：将输入图像划分为固定大小的图块，并将每个图块变成embedding，视为序列中的一个元素，然后把图块按顺序排列好，就可以看成类似句子，就可以用transformer处理了。预训练是mask patch prediction，对应bert训练的其中一个子任务，没有next sentence prediction