梯度下降法

一、gd和ols:https://www.zhihu.com/question/20822481

理解:ols原理是极值即损失函数最小值,所以可以轻易达到全局最优的闭式解close form。

            然而它具有多种局限性:只能解决线性回归、参数估计时要求xtx可逆(存在x多重共线性下估计效率很差的问题)、矩阵计算量大、需要高斯马尔科夫条件才能保证blue性质。

        所以考虑没有任何前提假定的迭代法(逼近思想),gd是迭代法的一种。


二、gd中为什么不直接令导数为0?https://www.zhihu.com/question/20319985/answer/15433519

很多情况下解不出参数


2.学习率即步长

为什么要调整学习率(和进行特征缩放):http://blog.csdn.net/chenguolinblog/article/details/52138510

如何调整学习率:http://blog.csdn.net/u012162613/article/details/44265967

神经网络难以优化的原因主要在于gd难以跑出鞍点:https://www.zhihu.com/question/52782960/answer/133724696

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值