优化算法-

最新推荐文章于 2024-07-08 22:12:26 发布

hlhwna

最新推荐文章于 2024-07-08 22:12:26 发布

阅读量51

点赞数 1

文章标签：算法机器学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hlhwna/article/details/129793741

版权

1.基础梯度下降数目选择：批量，mini，随机（每次一个的mini）

这里指的是数据集大小，一般的是一次整个传进去，现在则是一次传少量

函数：np.rwandom.permutation(a),a如果是一个数，则返回打乱的arange（5）数组；

如果是一个一维数组，打乱元素；如果是一个高维，打乱行向量的排列

math.floor():向下取整；math.ceil向上取整

注：1.通常我们在循环中一般把所有当前层参数放在一个元组中，元组不考虑形状；在用append把每个元组放在一个数组中，一般元组形状都是（k,),如通向量，可以放在一个数组里。可以通过例如a[1][3]表示取数组a中第二个元组的第四个元素

2.可以通过[:,a](a是一维数组）来调用数组中全部行以及a中包含数字-1列

2.动量梯度下降：指数梯度平均是对之前多个梯度dw，db本身做平均，波动减小，向优叠加

这里的v可以认为是dw，db的修正项，v["dW" + str(l + 1)] = beta * v["dW" + str(l + 1)] + (1 - beta) * grads["dW" + str(l + 1)]，vdw,vdb实际上是对grads中dw,db的持续修正项，由于只和vdw本身以及dw有关，而vdw一般初始化为0，所以多次迭代才会有比较好的效果。v本身是由代价和上一项构成。

adam使用了v，s，相当于用v减小竖直，叠加水平；用s相当于d越大，缩减越大，d越小，缩减越小，所以通过加权惩罚梯度，导致梯度下降更好。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
优化算法-

这里的v可以认为是dw，db的修正项，v["dW" + str(l + 1)] = beta * v["dW" + str(l + 1)] + (1 - beta) * grads["dW" + str(l + 1)]，vdw,vdb实际上是对grads中dw,db的持续修正项，由于只和vdw本身以及dw有关，而vdw一般初始化为0，所以多次迭代才会有比较好的效果。adam使用了v，s，相当于用v减小竖直，叠加水平；用s相当于d越大，缩减越大，d越小，缩减越小，所以通过加权惩罚梯度，导致梯度下降更好。
复制链接

扫一扫

hlhwna CSDN认证博客专家 CSDN认证企业博客

码龄2年

16: 原创

152万+: 周排名

161万+: 总排名

2030: 访问

: 等级

163: 积分

0: 粉丝

3: 获赞

1: 评论

5: 收藏

私信

关注

热门文章

最新评论

深度学习记录笔记-初始化，正则化，梯度检验
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。