目的:找到一条直线,最大程度的拟合样本特征和样本输出标记之间的关系。
假设我们找到了最佳拟合的直线方程:
y
=
a
x
+
b
y=ax+b
y=ax+b
则对于每一个样本点
x
(
i
)
x^{(i)}
x(i),根据直线方程,预测值为
y
^
(
i
)
\hat{y}^{(i)}
y^(i),真值为
y
(
i
)
y^{(i)}
y(i),我们希望
y
(
i
)
y^{(i)}
y(i)和
y
^
(
i
)
\hat{y}^{(i)}
y^(i)的差距尽量小:
(
y
(
i
)
−
y
^
(
i
)
)
2
(y^{(i)}-\hat{y}^{(i)})^2
(y(i)−y^(i))2
考虑所有样本:
∑
i
=
1
m
(
y
(
i
)
−
y
^
(
i
)
)
2
\sum_{i=1}^m(y^{(i)}-\hat{y}^{(i)})^2
i=1∑m(y(i)−y^(i))2
使它尽可能小。
即找到a、b,使得
∑
i
=
1
m
(
y
(
i
)
−
a
x
(
i
)
−
b
)
2
\sum_{i=1}^m(y^{(i)}-ax^{(i)}-b)^2
i=1∑m(y(i)−ax(i)−b)2尽可能小。
分别对a,b求导,得
a
=
∑
i
=
1
m
(
x
(
i
)
−
x
‾
)
(
y
(
i
)
−
y
‾
)
∑
i
=
1
m
(
x
(
i
)
−
x
‾
)
2
a=\frac{\sum_{i=1}^m(x^{(i)}-\overline{x})(y^{(i)}-\overline{y})}{\sum_{i=1}^m(x^{(i)}-\overline{x})^2}
a=∑i=1m(x(i)−x)2∑i=1m(x(i)−x)(y(i)−y)
b
=
y
‾
−
a
x
‾
b=\overline{y}-a\overline{x}
b=y−ax