一个例子
数据:工资和年龄
预测目标:贷款额度
通俗解释
对于一个三维坐标系,x,y 是特征,z是一个预测的值,拟合一个平面,称为线性回归。‘
拟合平面:
h
θ
(
x
)
=
θ
0
+
θ
1
x
1
+
θ
2
x
2
h_{\theta}(x) =\theta_0 + \theta_1x_1 +\theta_2x_2
hθ(x)=θ0+θ1x1+θ2x2
h
θ
(
x
)
=
∑
θ
i
x
i
=
θ
T
x
h_{\theta}(x) = \sum\theta_ix_i = \theta^Tx
hθ(x)=∑θixi=θTx
方便矩阵运算
预测误差
真实值与预测值之间必然存在误差
α
=
h
θ
(
x
)
+
q
\alpha=h_{\theta}(x) + q
α=hθ(x)+q
误差满足独立同分布的高斯分布
独立:个体不同
同分布:同一个系统(同一家银行)
高斯分布:误差浮动在一个范围内
线性回归可以把参数的最优解(全局最优解)解出来。
因为线性回归的误差函数是
J
(
θ
)
=
∑
∣
y
′
−
y
∣
θ
2
=
∑
(
y
′
−
y
)
J(\theta) = \sum|y'-y| ~~~\theta ^2 = \sum(y'-y)
J(θ)=∑∣y′−y∣ θ2=∑(y′−y)
这是一个与
θ
\theta
θ 有关的二次函数
但是一般情况下,我们都无法求得这个全局最优解,所以我们要使用最优化思想。
最优化思想
梯度下降是一种常用的最优化思想,主要思想是沿着偏导最值的方向进行下降,这样可以让函数的变化率最大,尽快达到最优解。
下降速度不能太快,太空容易错过最优点(学习率)。
所以我们要选择一个合适的学习率,不能太高。
一般用小批量下降法