线性回归
在坐标上分布很多点,这些点可以通过y=mx+b的直线进行近似模拟,如图。最合适的线性回归线(Best fitting regression)就是Error的方差最小,即Square error to the line: SEline最小。我们需要找寻SEline最小时m和b的值,即find the m & b that minimizes SEline。
线性回归公式推导
假设我们有n个点,(x1,y1), (x2,y2), ... ,(xn,yn),如下图所示:
我们要求这几个点的线性回归方程,假设方程为y=mx+b,如下图所示:
即求:
决定系数:
描述的是X波动对Y波动的影响度。
决定系数 R平方 = 1 - SE line (Y对于回归线距离的平方和)/ SE Y均 (Y对于 Y平均值距离的平方和),这个系数是对回归方程拟合程度的判断,当R平方接近于1时,说明直线拟合的很好。