通过已知数据,回归得出一条线或平面。
问题:
计算机处理数据时数据的形式是什么
误差项服从怎样的分布
我们怎样找到最合适的线或平面,过程是怎样的
(似然函数,对数似然,目标函数)
怎样评估我们最后得到的线或平面
过程:
数据已有,那么我们需要得知的是系数,有多少个维度(变量)也就需要多少个系数,外加一个偏置项(也叫偏置参数)。
其实偏置项也是我们理解的y=kx+b 中 的 b,单单靠kx我们还是和y有差距,那么就加上b。
偏置项就是可以取任何的预测值。在训练过程中,就可以不断优化我们的预测值。
因为计算机进行计算使用矩阵更方便,因此,偏置项作为系数,对应的变量,是一个全为1的变量,
所以在我们进行处理的时候通常会需要先进行补偿一个全为1 的列。
此时,变量和系数组合为矩阵了。
但是我们知道,我们的预测值和实际值总会相差一点,也就是误差项。那么误差项也可以用我们的预测值和实际值来表示。
对于误差项,需要补充的是,误差项,对于每一条数据都会有自己的误差项。
那么所有的误差项都是独立同分布的,而且是均值为0,方差为 斯塔平方 的高斯分布
独立:每个误差项互不影响
同分布:都是服从该高斯分布
(此处事实上没办法都认为都是,但绝大部分情况下成立)
对于我们来说