笔记(1)：基于梯度的优化方法

最新推荐文章于 2024-07-11 01:00:00 发布

Lehyu

最新推荐文章于 2024-07-11 01:00:00 发布

阅读量3.5k

点赞数

分类专栏：深度学习文章标签：优化算法梯度下降法深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Lehyu/article/details/52225692

版权

这篇笔记介绍了深度学习中常用的优化算法，包括神经网络的表示，梯度下降的原理及伪代码，牛顿法的泰勒公式和优缺点，以及共轭梯度法的理论和应用。文章探讨了梯度下降在实际应用中的局限性，如局部最小值和收敛速度，并提出牛顿法和共轭梯度法作为改进方案，但同时也指出它们的计算复杂性和内存需求。

摘要由CSDN通过智能技术生成

神经网络的表示

假设一个深度神经网络有 $nl$ 层网络，输入为 $(X,y)$ 那么深度神经网络可以一般表示为

y' = f (W, X, b) = f n l (W n l, f n l - 1 (W n l - 1, f n l - 2 (. . . f 1 (W 1, X, b 1) . . ., b n l - 2), b n l - 1), b n l)

$y^{'}=f(W,X,b)=f_{nl}(W^{nl},f_{nl-1}(W^{nl-1},f_{nl-2}(...f_1(W^1,X,b_1)...,b_{nl-2}),b_{nl-1}),b_{nl})$
即前一层的输出是下一层的输入，也就是任意一层可以看作是关于前一层输出的函数。
训练深度神经网络，也就是使

y $y$ 与

y′ $y^{'}$ 之间的误差最小，即关于

y $y$ 和

y′ $y^{'}$ 的函数

L(y,y′) $L(y,y^{'})$ 最小。由

y′ $y^{'}$ 的表达式我们可得

L (y, y') = L (y, f (W, X, b))

$L(y,y^{'})=L(y,f(W,X,b))$
由于

(X,y) $(X,y)$ 已知，故求解

L(y,y′) $L(y,y^{'})$ 的最小值问题又可以转化成如何调整

W $W$ 的值从而使

L $L$ 最小。
需要注意的是在前馈（forward）中，即求

y′ $y^{'}$ 时

y′ $y^{'}$ 是关于

X $X$ 的函数，而在BP中，是调整权值

W $W$ 以使损失函数

L $L$ 达到最小。

梯度下降

对于一个函数 y=f(

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Lehyu CSDN认证博客专家 CSDN认证企业博客

码龄9年

15: 原创

112万+: 周排名

61万+: 总排名

2万+: 访问

: 等级

426: 积分

8: 粉丝

1: 获赞

1: 评论

11: 收藏

私信

关注

热门文章

分类专栏

深度学习 7篇
机器学习 6篇
数学 4篇
配置 1篇

最新评论

PRML读书笔记(三)
weixin_41673161: 您好，最后这张图我看了一天，实在是看不懂，为什么lambdai是参数被数据绝决定的程度？还有，那个Wmap和Wml之间的关系是怎么出来的啊

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。