【过一下8】全连接神经网络视频笔记

最新推荐文章于 2024-09-07 22:26:58 发布

墨苏玩电脑

最新推荐文章于 2024-09-07 22:26:58 发布

阅读量196

点赞数 1

分类专栏：好好学习日记文章标签：神经网络深度学习

本文链接：https://blog.csdn.net/aiwandianao/article/details/125495302

版权

好好学习日记专栏收录该内容

23 篇文章 0 订阅

订阅专栏

过一下8 视频过完

颓了两天了

第五节视频，老师先回顾了一下前面的概念，关于交叉熵和相对熵这里，前者没有分母比较简单，然后onehot所以最终简化为-log
（2022年6月28日08:38:38 现在已经看了剩余部分1/38了，加油）
梯度消失（反向传递乘上0）
梯度爆炸（飞出去，扯住蛋了）
在这里插入图片描述
裁剪：束缚步长

上个时代没有暴露着两个问题的时候经常使用的。现在的用处就在输出层，如果需要结果在0和1之间的时候。不会用在隐含层。

在这里插入图片描述

梯度下降存在的问题

在这里插入图片描述

设置成1 就相当于没有摩擦，永远停不下来了。v=v

在平路上冲刺

震荡方向 r大一步星朗小
但是在一直累加的过程中，r越来越大，最后步长很小，走不动了
（这里就相当于无脑的集成之前所有的记录）
在这里插入图片描述
这个就好 ρ代表着集成之前多少的训练记录。
0.999r+0.001 (g*g)-100轮-》就很小了
保证了他只保留这100次训练的经验，也不会无限增大
如果想要保留更多，就ρ设大一点，但不能为1（那样就保留所有了）

动量法-此消彼长
自适应-不同方向不同的步子
Adam-结合两者
在这里插入图片描述

（2022年6月28日09:14:35 看了 2/38了）

在这里插入图片描述
可以先adam快速的挑一个差不多的，然后用动量加SGD慢慢炼丹
也会先动量加SGD，然后再adam

参数初始化

在这里插入图片描述

游戏可以玩下去了

基本符合正态
在这里插入图片描述

大部分集中在0
在这里插入图片描述

均匀很多
在这里插入图片描述

如果不考虑权值初始化，一个个神经元都是一样的参数，就相当于一个神经元
如果使用不恰当的初始化方法和激活函数的组合，就会导致要么就是分布不均匀，要么就是拉了胯了

批归一化

在这里插入图片描述
现在不考虑权值初始化的事情了
直接从最后考虑，我直接对y下手
你想要的不就是 0均值1方差的y嘛
那我就求个均值，再一减（归一化一下），然后把这个当做y

在这里插入图片描述
按照想法是放在激活函数之后，但是实操下来，分啊先放在 FC和激活函数之间比较好
可以让那些原本会落在鸟不拉屎地方的点回到好地方（原本越来越小的值和没有梯度的地方）

x1…xm就是原来的y
y1…ym就是上面标黄的
如果止步于此，就是进行了个归一化
做了个改进，平移缩放
让神经网络自己决定均值和方差（那两个参数也是学习的）
在这里插入图片描述
正向更加方便，反向也能有梯度
保证信息流流通顺畅=》训练好
（2022年6月28日09:59:20 看完3/38）

过拟合欠拟合

在这里插入图片描述
过拟合记住就好了（往往奔着这个去设计）
欠拟合学习能力差，学不来（通常可以解决）

L损失 E误差
训练集-优化
验证集测试集-泛化（算精度）
（2022年6月28日10:13:25 看了 4/38)

应对过拟合

在这里插入图片描述
增加训练数据-成本高

调整大小-9层改8层，500个神经元改300个
在这里插入图片描述
强制神经网络不能靠屁大点的样本去影响权重参数，要顾大局，要更分散
使得分界面更简单更平滑

随机失活

在这里插入图片描述

针对解释2
觉得有点像瞬息全宇宙
可能最后是打boss，要从其他宇宙那里汲取能力，然后尽力去打，可能在这里推进的还不错，结果突然boss过来干掉了（dropout），那为了最后能打过boss，其他宇宙都要努力去变得更强，不能太单一。
为什么说都要努力（平均），而不是养一个大爹（全集中在一个身上），因为不知道哪个会被dropout，要是都摆烂（信息存的少），那更是完蛋，boss肯定打不过了
解释3
相当于那个x的网络B和A投票的出来的结果
虽然一个网络很牛，可能大多时候都是对的，但是一旦犯错，就完蛋了，所以这个时候就需要三个臭皮匠

使用的时候
在这里插入图片描述
测试时候神经元都是打开的，不会随机失活

在这里插入图片描述
还要在最后再乘个p，要不然训练的时候都是1/2期望E，测试时候是期望E，差了一倍呢

那直接在训练的时候除一下p，保证数值（期望）相同就好了

（2022年6月28日10:38:59 看完了 5/38）

参数

参数-神经网络自己学的
超参数-我定的
在这里插入图片描述

妙呀，把学习率比作棒子的长度，太大就挂在外面了
一般的话也是触碰不到谷底的。

右上角是策略
/e^t 一直衰减
或者训练一轮，然后卡住了，然后往下一级去调，循环

（溜了休息了）

在这里插入图片描述
前者只比较了三个学习率后者9个所以用后面的

（2022年6月28日12:14:43 6/38已看完）

墨苏玩电脑

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【过一下8】全连接神经网络视频笔记

过一下8 视频过完第五节视频（2022年6月28日08:38:38 现在已经看了剩余部分1/38了，加油）裁剪：束缚步长上个时代没有暴露着两个问题的时候经常使用的。现在的用处就在输出层，如果需要结果在0和1之间的时候。不会用在隐含层。设置成1 就相当于没有摩擦，永远停不下来了。v=v在平路上冲刺震荡方向 r大一...
复制链接

扫一扫