常见的深度学习基础模块总结

CNN: 假设n个33卷积小权重矩阵,对m特征维度的图像卷积(如RGB彩色图像,m=3),m个特征图像每个图像都用n个卷积提取特征,所以参数维度为mn33。特征图在有padding的情况下基本不是靠卷积缩小的,而是靠池化,所以CNN就是一次卷积一次池化一次卷积一次池化,最后假设比如特征图变小成了1616m,最后展平输入到MLP后续。
RNN:同时运用t时刻输入的信息和t-1时刻的信息,每个时序节点如是。其主要特点是拥有循环结构,每个时间步的输出依赖于前一个时间步的输出。适用于时间序列预测、语言建模、语音识别等任务。
seq2seq: 早期的seq2seq是由两个 RNN(或其变种)组成的编码器和解码器,后期的也有基于transformer,输入和输出的序列长度可以不同
LSTM(Long Short-Term Memory):可以看作是RNN的加强版本,旨在解决标准RNN在处理长序列数据时所遇到的梯度消失和梯度爆炸问题。利用四个门分别赋予过去信息和当前信息的权重,使得它可以根据数据自动调整信息保留和丢弃的比例,适应不同类型的序列数据。
Transformer:输入输出token长度可以不一致。先position embedding,也就是每个输入token都给你套上个位置信息。然后输入embedding乘上Q其实还是可以理解成原Token表示(就加了个权重),乘上K后,就变成了token之间的正方形相关矩阵(假设输入“我爱你”,编码为123,那第一行相关矩阵是【1 * 1,1 * 2,1 * 3】)。再乘以一个V,V的每一列可以看成【1,2,3】,那么【QK】的第一行乘以V每一列,每个数结果都是【111+122+133】(乘号省略),这些数形成的列表,就是【QK】*V的第一行。因此它的第一行也还都是和1相关的,可以作为1的表示。在这个列表中,融合了1的自身情况与其他2,3token的相关情况,2,3的位置情况。所以是一个很好的表示

Bert: 1. 只用了transformer的编码器,并用双向编码器,以获得左右上下文信息,预训练有随机mask输入token并预测、判断两个句子是否是连续的句子 2. BERT的输入是一个固定长度的序列(通常由[CLS]和[SEP]标记组成)。它的输出是同样长度的序列,其中每个词都有对应的表示向量。3. BERT并不生成一个完全新的序列(不像典型的Seq2Seq模型会生成目标序列)。相反,BERT输出的序列用于进一步处理或作为下游任务的输入。

GCN(参考 GCN,GAT关系):类似于CNN,运用卷积的思想,同一个图周围的邻居节点
在这里插入图片描述
在GCN中,很大借鉴了拉普拉斯矩阵的做法:
在这里插入图片描述
可以看到,W非常固定,比如第i个节点就配备第Wi,每次迭代,都是同一个Wi去迭代。

GAT在这里插入图片描述
可以看到GAT借鉴transformer,计算节点两两之间的相关性,注意hi前面和hj前面的W不是一套W,很像transformer里面的Q和K,计算相关,两两相关的节点各自有一套自己的权重。
在这里插入图片描述
上图中hj前面的W就很像transformer里面的V

VIT(Vision transformer):将输入图像划分为固定大小的图块,并将每个图块变成embedding,视为序列中的一个元素,然后把图块按顺序排列好,就可以看成类似句子,就可以用transformer处理了。预训练是mask patch prediction,对应bert训练的其中一个子任务,没有next sentence prediction

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值