(1)符号定义
【m:样本数量 n:特征数量】
(2)代价函数
【对于大多数线性回归问题,代价函数都会选择均值误差函数】
【举例:单参数】
【每一组参数带入损失函数都会得到一个值,在这些值中选取一个最小值,得到这个最小值的那组参数,就是所需的参数】
【举例:双变量】
(3)梯度下降法
【参数初始化为0,随机的数都可以】
【伪代码】 // theta同时更新
【直观理解】
往最低点的方向踏一步
(4)学习速率过大 / 过小
学习速率过小:学习速度过慢,想要花费很多时间
学习速率过大:可能会越过最小值
【有可能会陷入局部最小值出不了(导数降为0了,无法更新参数的值)】
【原本会自动降低更新幅度,所以不用减少学习速率的值】
(5)线性回归中的梯度下降
【推导过程】
【伪代码】
【线性回归中的损失函数一般只有全局最优解,没有局部最优解】
【“Batch" Gradient Descent :计算所有样本的误差】