先来一组对应关系:
一、使用拟合。
1.1代数计算
拟合后误差为,要找到一个a,使得 的和最小,计算 ,用 f(a) 表示:
带入数据即可得到
易得f(a)最小时的a值。
1.2解超定方程组
用向量表示x和y:
则解得:
1.3几何意义
a为常数,故向量 与向量 x 维数相同且共线。既然找到了一个最合适得a,那么就一定有误差向量 与向量 垂直,即 ,解得:
二、使用 拟合
2.1代数计算
拟合后误差为,要找到一个a,b,使得 的和最小,计算 ,表示为:
带入数据即可得到
求偏导易得f(a,b)最小时的a,b值。
2.2 解超定方程组
用向量表示x和y:
则可得:
解超定方程组得
2.3几何意义
角度一:将每个样本看成高维空间中的一个点,则每个样本都是一个点,在这里,由于每个样本的特征都要加上一个维度(即与1进行拼接,即截距项b)则样本组成的样本空间是二维空间中的一条平行于x轴的直线,经过参数矩阵 [a,b] 进行变换,此处变化到一维,即投影到一维,Y值是在这个一维直线上的一系列点,投影后的值与Y值的差值即为误差。
角度二:将每个特征看成n维空间中的一个向量。当只有一个特征时,特征向量与全1向量以及Y向量都是n维的(n代表样本的个数),特征向量与全1向量构成一个二维的平面,参数矩阵对这个空间进行变换,变换后的向量在这个平面上,他的维度为n,但与Y不一定重合(大概率是不重合的,因为n个方程2个未知数的方程大概率是无解的)。变换后的向量与Y的距离即为误差。训练过程是找到一个最合适的参数矩阵对特征向量和全1向量进行变换,使得到的变换后的向量与Y尽可能相近。其实就是找到Y向量在这个平面上的投影。
要想有最合适的a和b,就一定有误差向量 模值最小,则一定会有 在[1]向量和x向量的平面上的投影为,即:
则可解得: