![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
学习笔记
文章平均质量分 54
学习笔记
WildDuck_01
这个作者很懒,什么都没留下…
展开
-
pytorch图像数据预处理——外部数据集导入
pytorch中外部图像数据的导入原创 2023-06-14 23:04:09 · 467 阅读 · 0 评论 -
ResNet 学习笔记
随着卷积神经网络层数的变深,最先带来的问题是:vanishing/exploding gradient 梯度消失/爆炸以往解决上述问题的方案: 归一化normalized initialization 初始归一化(对输入数据)intermediate normalization 中间层归一化同时要注意到,网络变深导致最后测试集上的性能不如较浅的网络,不是因为overfitting过拟合因为过拟合是指训练精度很高,测试精度却很低,深度较大的普通网络却随着网络越深,trian acc和tes原创 2021-12-30 16:03:36 · 1603 阅读 · 0 评论 -
Vision Transformer 复现
课程大体内容Transformer基础知识代码解析与实现ViT 的实践ViT的输入原创 2021-12-30 10:12:35 · 333 阅读 · 0 评论 -
Multihead-Attention 学习笔记
为什么产生Multihead-Attention一个Attention获得一个表示空间,如果多个Attention,则可以获得多个不同的表示空间。基于这种想法,就有了Multi-Head Attention。换句话说,Multi-Head Attention为Attention提供了多个“representation subspaces”。因为在每个Attention中,采用不同的Query / Key / Value权重矩阵,每个矩阵都是随机初始化生成。不同的Q负责不同方面的相关性。解决单个关系衡原创 2021-12-29 20:12:32 · 666 阅读 · 0 评论 -
Self-Attention 学习笔记
Attention机制的本质attention机制的本质是从人类视觉注意力机制中获得灵感。大致是我们视觉在感知东西的时候,一般不会是一个场景从到头看到尾每次全部都看,而往往是根据需求观察注意特定的一部分。而且当我们发现一个场景经常在某部分出现自己想观察的东西时,我们就会进行学习在将来再出现类似场景时把注意力放到该部分上。从关注全部到关注重点Attention机智的优势参数少模型复杂度跟 CNN、RNN 相比,复杂度更小,参数也更少。所以对算力的要求也就更小。速度快Attention 解原创 2021-12-29 19:52:32 · 3059 阅读 · 1 评论