【过一下8】全连接神经网络 视频 笔记

过一下8 视频过完

颓了两天了

第五节视频,老师先回顾了一下前面的概念,关于交叉熵和相对熵这里,前者没有分母比较简单,然后onehot所以最终简化为-log
(2022年6月28日08:38:38 现在已经看了剩余部分1/38了,加油)
梯度消失(反向传递乘上0)
梯度爆炸(飞出去,扯住蛋了)
在这里插入图片描述
裁剪:束缚步长
在这里插入图片描述
上个时代没有暴露着两个问题的时候经常使用的。现在的用处就在输出层,如果需要结果在0和1之间的时候。不会用在隐含层。

在这里插入图片描述
在这里插入图片描述在这里插入图片描述

梯度下降存在的问题

在这里插入图片描述
在这里插入图片描述
设置成1 就相当于没有摩擦 ,永远停不下来了。v=v
在这里插入图片描述在这里插入图片描述
在平路上冲刺
在这里插入图片描述
震荡方向 r大 一步星朗小
但是在一直累加的过程中,r越来越大,最后 步长很小,走不动了
(这里就相当于 无脑的集成之前所有的记录)
在这里插入图片描述
这个就好 ρ代表着集成之前多少的训练记录。
0.999r+0.001 (g*g)-100轮-》就很小了
保证了 他只保留这100次训练的经验,也不会无限增大
如果想要保留更多,就ρ设大一点,但不能为1(那样就保留所有了)

动量法-此消彼长
自适应-不同方向不同的步子
Adam-结合两者
在这里插入图片描述
在这里插入图片描述
(2022年6月28日09:14:35 看了 2/38了)

在这里插入图片描述
可以先adam快速的挑一个差不多的,然后用动量加SGD慢慢炼丹
也会先动量加SGD,然后再adam

参数初始化

在这里插入图片描述在这里插入图片描述
在这里插入图片描述
游戏可以玩下去了
在这里插入图片描述

基本符合正态
在这里插入图片描述

大部分集中在0
在这里插入图片描述

均匀很多
在这里插入图片描述

如果不考虑权值初始化 ,一个个神经元都是一样的参数,就相当于一个神经元
如果使用不恰当的初始化方法和激活函数的组合,就会导致要么就是分布不均匀,要么就是拉了胯了

批归一化

在这里插入图片描述
现在不考虑 权值初始化的事情了
直接从最后考虑,我直接对y下手
你想要的不就是 0均值1方差的y嘛
那我就求个均值,再一减(归一化一下),然后把这个当做y

在这里插入图片描述
按照想法是放在激活函数之后,但是实操下来,分啊先放在 FC和激活函数之间比较好
可以让那些 原本会落在鸟不拉屎地方的点回到好地方(原本越来越小的值和没有梯度的地方)
在这里插入图片描述
x1…xm就是原来的y
y1…ym就是上面标黄的
如果止步于此,就是进行了个归一化
做了个改进,平移缩放
让神经网络自己决定均值和方差(那两个参数也是学习的)
在这里插入图片描述
正向更加方便,反向也能有梯度
保证信息流流通顺畅=》训练好
(2022年6月28日09:59:20 看完3/38)

过拟合 欠拟合

在这里插入图片描述
过拟合 记住就好了(往往奔着这个去设计)
欠拟合 学习能力差,学不来(通常可以解决)
在这里插入图片描述
L损失 E误差
训练集-优化
验证集 测试集-泛化(算精度)
(2022年6月28日10:13:25 看了 4/38)

应对过拟合

在这里插入图片描述
增加训练数据-成本高

调整大小-9层改8层,500个神经元改300个
在这里插入图片描述
强制神经网络不能靠屁大点的样本去影响权重参数,要顾大局,要更分散
使得分界面 更简单更平滑

随机失活

在这里插入图片描述

在这里插入图片描述

针对解释2
觉得有点像瞬息全宇宙
可能最后是打boss,要从其他宇宙那里汲取能力,然后尽力去打,可能在这里推进的还不错,结果突然boss过来干掉了(dropout),那为了最后能打过boss,其他宇宙都要努力去变得更强,不能太单一。
为什么说都要努力(平均),而不是养一个大爹(全集中在一个身上),因为不知道哪个会被dropout,要是都摆烂(信息存的少),那更是完蛋,boss肯定打不过了
解释3
相当于那个x的网络B和A投票的出来的结果
虽然一个网络很牛,可能大多时候都是对的,但是一旦犯错,就完蛋了,所以这个时候就需要三个臭皮匠

使用的时候
在这里插入图片描述
测试时候神经元都是打开的,不会随机失活

在这里插入图片描述
还要在最后再乘个p,要不然训练的时候都是1/2期望E,测试时候是期望E,差了一倍呢
在这里插入图片描述
那直接在训练的时候 除一下p,保证数值(期望)相同就好了

(2022年6月28日10:38:59 看完了 5/38)

参数

参数-神经网络自己学的
超参数-我定的
在这里插入图片描述
在这里插入图片描述
妙呀,把学习率比作棒子的长度,太大就挂在外面了
一般的话也是触碰不到谷底的。
在这里插入图片描述
在这里插入图片描述右上角是策略
/e^t 一直衰减
或者训练一轮,然后卡住了,然后 往下一级去调,循环
在这里插入图片描述
(溜了休息了)

在这里插入图片描述
前者 只比较了三个学习率 后者9个 所以用后面的
在这里插入图片描述
(2022年6月28日12:14:43 6/38已看完)

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值