1、线性回归的原理
基础定义
线性回归是利用数理统计中的回归分析,来确定两种或两种以上属性间相互依赖的定量关系的一种统计分析方法。举个例子,一套房子的具有面积、卧室数量、卫生间数量等三个属性,该房子的售价与上述三个属性息息相关,可以根据实际情况构造出各个属性之间的线性关系表达式,表达式就被成为线性回归方程;
房屋价格 = 0.8500 * 面积 + 0.0500 * 卧室数量 + 0.0015 * 卫生间数量
在实际生活中,我们可以获取多套房屋的面积、卧室数量、卫生间数量、售价等数据的值,根据历史数据,可以构造出属性之间更接近实际情况的线性数量关系表达式,利用线性回归方法对未出售的房屋售价进行预测。
根据上述的历史数据,可以构造出一个简单的线性关系表达式:
这个方程称为回归方程, θ1和θ2称为回X1和X2归系数或权重。预测的Y值需要尽可能的接近于接近于实际情况,为了衡量h(x)有多“接近”y,定义损失函数(cost function):
上述方程成为最小二乘损失函数,y(i)表示第i个训练实例对应的目标变量值,m为房屋的数量;常数1/2是为了方便后续计算;最小二乘法其实又叫最小平方法。
公式推导
对于一元线性回归来说,根据已知X和Y值,我们可以在坐标轴上面描出所有的点,找出一条直线,使这条直线“最贴近”已知的数据点,设此直线方程为: