线性回归
是一种预测监督式学习的方法,它通常表现为如下形式
表现形式
h
(
x
)
=
θ
0
+
θ
1
∗
x
h ( x ) = \theta_0 + \theta_1 * x
h(x)=θ0+θ1∗x
代表假设函数,x代表输入,输出预测值。
对数据集进行简单的拟合,最简单的模型。表现形式为一次函数。比如
线性回归有一个训练集,我们选择了线性回归,那么要如何选择合适的参量使得我们的预测更为准确呢?
代价函数
选择的依据
我们知道了现有的数据是准确的,那么预测就要以现有的数据为根基,尽量的贴合现有的数据,使得差距最小,怎么衡量这个差距呢?
平方和误差
我们把
∑
i
=
1
n
(
h
(
x
i
)
−
y
i
)
2
\sum_{i=1}^n(h(x^i)-y^i)^2
i=1∑n(h(xi)−yi)2
x i x^i xi代表第i个值, h ( x i ) h(x^i) h(xi)代表预测的第i个值, y i y^i yi代表实际的第i个值。
这个函数称为平方和误差函数
,我们要想办法求得这个函数最小的
θ
0
\theta_0
θ0和
θ
1
\theta_1
θ1
平均平方和误差
为了方便,我们又给出了平均平方和误差的概念
我们把
1
2
m
∑
i
=
1
n
(
h
(
x
i
)
−
y
i
)
2
\frac {1}{2m}\sum_{i=1}^n(h(x^i)-y^i)^2
2m1i=1∑n(h(xi)−yi)2
称之为平均平方和误差,之所以要 1 2 \frac {1}{2} 21,是因为带了平方,后面要用梯度下降法,要求导,这样求导多出的乘2就和二分之一抵消了,是一个简化后面计算的技巧。
以线性回归为例:
定义
我们把
J
(
θ
0
,
θ
1
)
=
1
2
m
∑
i
=
1
n
(
h
(
x
i
)
−
y
i
)
2
J(\theta_0,\theta_1) = \frac {1}{2m}\sum_{i=1}^n(h(x^i)-y^i)^2
J(θ0,θ1)=2m1i=1∑n(h(xi)−yi)2
称之为代价函数,我们求得就是使这个值最小的
θ
0
\theta_0
θ0和
θ
1
\theta_1
θ1
图像
如图,左图为假设函数,右图为其代价函数的等高线图。
右图中标识红点相当接近最小值,表明函数对数据的拟合还不错。
梯度下降法
梯度下降算法-循环直至收敛
:= 表示赋值
α \alpha α 学习率 (learing rate):下降的幅度; α \alpha α越大,梯度下降的越迅速。
实现该算法,需要同时更新
θ
0
\theta_0
θ0和
θ
1
\theta_1
θ1
左图为正确的同步更新,右图为错误的例子,未实现同步更新。
以 J ( θ 1 ) J(\theta_1) J(θ1)为例,当该点斜率为正数时, θ 1 \theta_1 θ1向左;当该点斜率为负数时, θ 1 \theta_1 θ1向右。
α \alpha α 学习率
α
\alpha
α 越小,下降得越慢
α
\alpha
α 越大,下降得越快,
α
\alpha
α 太大会导致无法收敛甚至发散。
线性回归的梯度下降
推导过程:
该算法也被称为Batch梯度下降法