深度学习参考资料

拍扁都是行优先

.通道和一个卷积核卷积结果相加再加每一个卷积核共享的偏置。一张特征图中的每一个神经元感受野都是局部的,所有神经元都共享权值,即卷积核的参数。且一张特征图的每一个神经元都共享一个偏置b。这与全连接层不同:
y=wx+b , 在全连接层中一个神经元一个b,一个连接一个w。
https://blog.csdn.net/weixin_40849273/article/details/82688712
还有Google那本书77页笔记
https://blog.csdn.net/gyh_420/article/details/78569225
https://blog.csdn.net/qq_40962368/article/details/82864606 那张动图展示了通道相加
在这里插入图片描述
如图5,输入有3个通道,同时有2个卷积核。对于每个卷积核,先在输入3个通道分别作卷积,再将3个通道结果加起来得到卷积输出。所以对于某个卷积层,无论输入图像有多少个通道,输出图像通道数总是等于卷积核数量!
对多通道图像做1x1卷积,其实就是将输入图像于每个通道乘以卷积系数后加在一起,即相当于把原图像中本来各个独立的通道“联通”在了一起。

激活函数的作用是将无限制的输入转换为可预测形式的输出。一种常用的激活函数是sigmoid函数
sigmoid函数的输出介于0和1,我们可以理解为它把 (−∞,+∞) 范围内的数压缩到 (0, 1)以内。正值越大输出越接近1,负向数值越大输出越接近0。
https://mp.weixin.qq.com/s?__biz=MzU0MDk0MjA4NA==&mid=2247484002&idx=1&sn=b9972c53b140a08e4bd95236e522133f&chksm=fb30c809cc47411fd12f45d26647cccbb783f463154bf02035a31f41879fb3bff10344bb4a98&mpshare=1&scene=1&srcid=&key=d98c1a7a91040c8dcb8dcc5d337c4bc82c03f0dadc6e3143a2d249b299633671c59d339c071182992e31efd31138d93c604c433b6dbe19be149d423ffa9e016418702003f6c3f4de6f2a1c5d2691939b&ascene=1&uin=Mjk4NTExNTExNA%3D%3D&devicetype=Windows+10&version=62060728&lang=zh_CN&pass_ticket=u6q43J%2BaMw26zciRs%2FkgurJpFdWOz2mY5VJQCrurVv2LRnxgmCChB157QXazwi9Z
深度好文 BP也有

因为偏置参数b经过BN层后其实是没有用的,最后也会被均值归一化,当然BN层后面还有个β参数作为偏置项,所以b这个参数就可以不用了。

归一化和去均值化 , BN
https://blog.csdn.net/weixin_43541325/article/details/85218239
https://www.cnblogs.com/guoyaohua/p/8724433.html
https://blog.csdn.net/qq_29573053/article/details/79878437
https://www.sohu.com/a/243383119_823210
BN操作归一化,对一个batch,一层操作,标准化是对一张图片

目前最好的:BN细谈

在这里插入图片描述
m是每个batch中样本的数量!对于卷积出来的tensor:batchsize x W x H x Kernel_num , 我们结合下面的图片分析:

根据下图介绍,每一个kernel对应的一个batch进行BN,所以一个xi就是一个样本某一个特征i,计算一个batch的特征xi的BN。

在这里插入图片描述
在这里插入图片描述
https://www.jianshu.com/p/0312e04e4e83

ResNet参考
https://blog.csdn.net/lanran2/article/details/79057994
https://blog.csdn.net/wspba/article/details/56019373
在top5上的错误率为3.57%,同时参数量比VGGNet低,效果非常突出。

ResNet的推广性非常好,甚至可以直接用到InceptionNet网络中。

提出残差学习的思想。传统的卷积网络或者全连接网络在信息传递的时候或多或少会存在信息丢失,损耗等问题,
同时还有导致梯度消失或者梯度爆炸,导致很深的网络无法训练。ResNet在一定程度上解决了这个问题,通过直接将输入信息绕道传到输出,
保护信息的完整性,整个网络只需要学习输入、输出差别的那一部分,简化学习目标和难度。VGGNet和ResNet的对比如下图所示。
ResNet最大的区别在于有很多的旁路将输入直接连接到后面的层,这种结构也被称为shortcut或者skip connections。

identity mapping顾名思义,就是指本身,也就是公式中的x,而residual mapping指的是“差”,也就是y−x,所以残差指的就是F(x)部分。

首先构建了一个18层和一个34层的plain网络,即将所有层进行简单的铺叠,然后构建了一个18层和一个34层的residual网络,
仅仅是在plain上插入了shortcut,而且这两个网络的参数量、计算量相同,并且和之前有很好效果的VGG-19相比,计算量要小很多。
(36亿FLOPs VS 196亿FLOPs,FLOPs即每秒浮点运算次数。)这也是作者反复强调的地方,也是这个模型最大的优势所在。

ResNet为什么要引入identity map , 因为RELU层会导致数据丢失,详细关联看
https://mp.weixin.qq.com/s/2cxEIqGhhQ-AgrEC1-a3gA
维度低的数据其实就是这么一种情况:其信息的冗余度高的可能性本来就低,如果强行对其进行非线性激活(维度压缩),则很有可能丢失掉有用信息,甚至丢失掉全部信息(输出为全0)。
ResNet本质上就干了一件事:降低数据中信息的冗余度。
对于一个数据,利用非线性激活层对其进行激活,其实是从该数据的信息中提取出其潜在的稀疏性

分类是定性,回归是定量
预测明天的气温是多少度,这是一个回归任务;
预测明天是阴、晴还是雨,就是一个分类任务。
输入变量与输出变量均为连续变量的预测问题是回归问题;
输出变量为有限个离散变量的预测问题成为分类问题;
https://blog.csdn.net/u010995990/article/details/80620179

FCN网络:
FCN可以接受任意尺寸的输入图像,采用反卷积层对最后一个卷积层的feature map进行上采样, 使它恢复到输入图像相同的尺寸,从而可以对每个像素都产生了一个预测, 同时保留了原始输入图像中的空间信息, 最后在上采样的特征图上进行逐像素分类。
https://www.jianshu.com/p/c98adcf65195
当我们输入的图片大小和卷积核大小一致时,其实等价于建立全连接,但是还是有区别。
全连接的结构是固定的,当我们训练完时每个连接都是有权重的。而卷积过程我们其实为训练连接结构,学习了目标和那些像素之间有关系,权重较弱的像素我们可以忽略。
http://www.sohu.com/a/270896638_633698
全卷积神经网络主要使用了三种技术:
1.卷积化(Convolutional)
2.上采样就是反卷积(Upsample)
3.跳跃结构(Skip Layer)
对第5层的输出(32倍放大)反卷积到原图大小,得到的结果还是不够精确,一些细节无法恢复。于是Jonathan将第4层的输出和第3层的输出也依次反卷积,分别需要16倍和8倍上采样,结果就精细一些了。
https://blog.csdn.net/qq_22194315/article/details/79253513

这里的FCN用于语义分割,和RPN还是有不同的,RPN也算是FCN的一种,这里的FCN特指论文给的模型。

卷积后大小计算
卷积后图片按照 w 计算,filter = (f,f), stride = s , padding = p
w = (w - f + 2p) / s + 1

backbone就是一个网络,可用于预训练的那部分结构。
对应的head什么的,就是除去预训练部分的网络。
最后微调,把两部分结合起来调整。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值