一、gd和ols:https://www.zhihu.com/question/20822481
理解:ols原理是极值即损失函数最小值,所以可以轻易达到全局最优的闭式解close form。
然而它具有多种局限性:只能解决线性回归、参数估计时要求xtx可逆(存在x多重共线性下估计效率很差的问题)、矩阵计算量大、需要高斯马尔科夫条件才能保证blue性质。
所以考虑没有任何前提假定的迭代法(逼近思想),gd是迭代法的一种。
二、gd中为什么不直接令导数为0?https://www.zhihu.com/question/20319985/answer/15433519
很多情况下解不出参数
2.学习率即步长
为什么要调整学习率(和进行特征缩放):http://blog.csdn.net/chenguolinblog/article/details/52138510
如何调整学习率:http://blog.csdn.net/u012162613/article/details/44265967
神经网络难以优化的原因主要在于gd难以跑出鞍点:https://www.zhihu.com/question/52782960/answer/133724696