神经网络模型底层原理与实现5—网络结构的变迁与设计思路

爱学习的uu

已于 2024-04-03 08:09:19 修改

阅读量481

点赞数 11

文章标签：人工智能深度学习神经网络机器学习

于 2024-03-29 16:20:08 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_60792028/article/details/137103898

版权

本期介绍历史上比较重要的几个网络结构模型

一、lenet

目的：做手写数字识别

结构：卷积层取特征，池化层减小图片大小，最终全连接层转化到类别空间

二.alexnet

观念改变：正式提出了用网络来提取特征的思想，这样就不用学习图像方面的专业知识

方法改进

1.在前一基础上使用了relu替换sigmoid（由于0点出导数为1，可以有效减缓梯度消失）

2.加入丢弃层

3.做数据增强

4.更大的池化窗口和更大的卷积核窗口和步长，用以处理更大的图片

三.VGG网络

解决问题：alexnet设计不规则，容易被问为什么这样设计宽度和深度以及为什么这样选卷积层个数

方法：n个卷积层和一个最大池化层组成一个块，进行堆叠

四.NIN网络

解决问题：之前提到的三种网络卷积层后的第一个全连接层参数量都很大，容易过拟合

方法：NIN块：卷积层后跟两个步幅1无填充的卷积层（实际作用和全连接层一样，混合通道）

架构：交替使用NIN块和最大池化层，逐步减小图片大小并增大通道数，最后用全局平均池化层得到输出

五.googlenet

思路：用四条路径并行尝试四种卷积层组合思路

（称为inception块）

六.残差网络（resnet）

解决的问题：加更多的层并不总能提升模型精度

解决方法：设计残差块，f（x）=x+g（x）（x为原来的输出）

在训练模型的时候，用前一个的输出x和f（x）做差，然后拟合这个差值（有点类似xgboost的思想）

一般把块设计成如下形式

补充一组概念：batch norm和layer norm

batch：同一个batch内所有样本计算均值方差

layer：单个样本的所有特征做正则化

关注

11
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。