1.线性预测函数定义
左侧为真实值,右侧为预测值与误差的和,其中为权重矩阵。
2.目标函数的推导
2.1 高斯分布函数
误差符合独立同分布假设,服从均值为0的高斯分布:
将线性函数带入,得:
2.2 最大似然函数
联合概率密度分布等于边缘概率密度分布的乘积,得似然函数:
取对数似然,得:
简化后得:
2.3 定义目标函数
由于目标是尽量减少预测值和真实值之间的误差,所以希望对数似然函数越大越好,可知希望减号后的部分越小越好,得:
希望它越小越好,这就是最小二乘法。
3.最佳模型求解
3.1 最佳模型求解思路
由第2节目标函数的推导,可知线性回归的目的是求得最优权重矩阵,使得目标函数值最小。一般情况下,我们会想到对目标函数对于求导,得到使其值为0的解,即为最优。直接求解方法如下:
目标函数的矩阵表示方法如下:
设
则
关于对求导,得:
对关于求导,得:
根据链式法则,得:
令其为0,得:
假设可逆,求解,得:
但是该方法存在一个前提,即
1.函数必须是可导的;
2.可以找到一阶导数等于零的点;
3.通过二阶导数判断该点为局部极小值点;
4.该点的函数值为定义域内的最小值
所以,求导并不一定可解。由此,需要一个新的方法进行求解。即梯度下降方法。
3.2 梯度下降
即然无法直接求得函数最值点,即最优,那么就需要从随机点开始,沿指定方向不断移动,逼近最值点,从而求得最优解。由于特征可能存在多个,需要独立对不同的权重进行求偏导。该方法就像从山顶下山寻找最优路径一样。梯度下降的方法常用的有以下几种:
1.批量梯度下降
2.随机梯度下降
3.小批量梯度下降
3.3 参数更新
在确定梯度下降方向后,需要对权重进行更新:
其中为学习率。