文章目录 基本原理 多维梯度下降 二维展示 算法评价 局部最小值 鞍点 小结 基本原理 因为SSE得到的损失函数不是凸函数,所以不能用最小二乘法求解 很多模型的损失函数都不能用最小二乘法求解,最基础、最为通用的求解方法是梯度下降算法 问:如果逻辑回归用SSE作为损失函数,可以用梯度下降(Gradient Descent)求解? 当然可以 通过简单例子逐步深入 考虑如下数据集 x y 1 2 2 4 3 6 先用SSE+最小二乘法 尝试使用梯度下降求解这个SSELoss,目标仍然是求最小值,但这里不是求解方程组,而是:先随机选取一组参数初始值,然后沿着某个方向,一步一步移动到最小值点 Step 1.随机选取初始参数值 上面只有一个参数,我们可以令