第六周--Resnet

作业内容:

1:文字回答:ResNet的shortcut connection与Highway Net有什么差别?

答:残差网络可以理解为将gata function融入了residual functions。也就是残差网络的residual不仅仅学习到怎样transform还学习到是否transform。multiple nonlinear layers能够学习到对合适的数据进行复杂的transform,不需要gate进行scale。既然不需要gate的scale,那就没必要用gate机制。而且gate函数近似不了复杂的函数(单层sigmod),所以泛化较低,性能相对比residual差。简而言之,两者都是通过shortcut机制来实现深度网络的训练(选择合适的layer来进行transform)。然而它们选择的机制是不同的(residual是直接训练一个只能处理特定数据的网络,而Highway是通过gate机制)。residual更像是Highway泛化。所以到底是Highway还是residual?简单来说,Highway参数少,适合single nonlinear layer的transform。residual参数多,必须匹配multiple nonlinear layers来近似residual函数。

2:文字回答:ResNet的训练曲线与GoogLenet的曲线为什么有明显差异?是什么原因导致的?

答:Googlenet的曲线比较平滑,而Resnet的曲线是曲曲折折的,比较陡;原因是因为Resnet中应用了随机梯度下降SGD以及shortcut的原因导致。

3:文字回答:ResNet的shortcut connection有哪三种形式,请简述,并思考是否有其他方式?(提示:后面的模型会用concat,而不是相加)

答:
在这里插入图片描述

  1. 实线的Connection部分(”第一个粉色矩形和第三个粉色矩形“)都是执行3x3x64的卷积,他们的channel个数一致,所以采用计算方式:y=F(x)+x。
  2. 虚线的Connection部分(”第一个绿色矩形和第三个绿色矩形“)分别是3x3x64和3x3x128的卷积操作,他们的channel个数不同(64和128),所以采用计算方式:y=F(x)+Wx。
    其中W是卷积操作,用来调整x的channel维度的
4:文字回答:读完该论文,对你的启发点有哪些?

答:Resnet中的shortcut连接方式;网络深度更深,不会出现梯度消失现象;由于使用更深的网络,分类准确度加深;解决了深层次的网络退化问题。

5:代码实现:在cifar-10上训练一个resnet20或34或56或者110或1202, 将训练曲线,混淆矩阵图等信息贴出来分享

Resnet-56的图像:
在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值