深度学习（batch，mini-batch，其它算法）

最新推荐文章于 2024-06-26 10:35:23 发布

helloworldsv

最新推荐文章于 2024-06-26 10:35:23 发布

阅读量5.1k

点赞数 1

分类专栏：机器学习文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34059989/article/details/78161188

版权

1 .batch vs mini-batch

2.理解mini-batch

分成几份，，，遍历做回归与反省回归。
若size=m，才相当于batch。
若size=1 ,随机梯度下降法（stochastic gradient descent）每个样本样本都是独立Mini_batch.
随机梯度下降法有很多的噪声。指错方向。往往不会到达最小值，而是在附近波动.很显然，一个样本求一次梯度，没有用到向量，速度慢.若1 < size < m，学习速率最快。1 实现了向量化。2.不需要等待整个训练集处理完
Vectoration fast总的来说比随机梯度下降更持续的接近最小值，也不一定在很小的范围内波动，如果出现波动，可以减小学习率
3How to choose size?
1 . small training set (m<=2000):use batch gradient descent
2 . bigger training set:64 to 512.consider computer memory,(2 to nth)
attention: make sure your mini-batch size fits in GPU/CPU memory

3.指数加权平均（exponentially weighted average）：

4.理解指数加权平均

5.偏差修正

6.动量梯度下降法&

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
深度学习（batch，mini-batch，其它算法）

batch vs mini-batch 2.理解mini-batch 分成几份，，，遍历做回归与反省回归。若size=m，才相当于batch。若size=1 ,随机梯度下降法（stochastic gradient descent）每个样本样本都是独立Mini_batch. 随机梯度下降法有很多的噪声。指错方向。往往不会到达最小值，而是在附近波动.很显然，一个样本求一次梯度，没有
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。