1.线性回归的模型函数
假设有
n
n
n个样本,每个样本对应于
d
d
d个维度和一个输出
y
y
y,构成数据集
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
.
.
.
,
(
x
n
,
y
n
)
}
\{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\}
{(x1,y1),(x2,y2),...,(xn,yn)}。若
y
y
y是连续的,我们希望
x
x
x与
y
y
y的关系能够用下面这种形式描述:
f
(
x
)
=
θ
0
+
θ
1
x
1
+
θ
2
x
2
+
.
.
.
+
θ
d
x
d
=
∑
i
=
0
d
θ
i
x
i
\begin{aligned} f(x) &= \theta_0 + \theta_1x_1 + \theta_2x_2 + ... + \theta_dx_d \\ &= \sum_{i=0}^{d}\theta_ix_i \\ \end{aligned}
f(x)=θ0+θ1x1+θ2x2+...+θdxd=i=0∑dθixi
这是一个线性回归模型。
需要选取
θ
\theta
θ的值,使得
f
(
x
)
f(x)
f(x)尽可能接近y的值。通常采用均方误差作为回归中常用的性能度量,即:
J
(
θ
)
=
1
2
∑
j
=
1
n
(
h
θ
(
x
(
i
)
)
−
y
(
i
)
)
2
J(\theta)=\frac{1}{2}\sum_{j=1}^{n}(h_{\theta}(x^{(i)})-y^{(i)})^2
J(θ)=21j=1∑n(hθ(x(i))−y(i))2
也就是说,我们的目的是选择
θ
\theta
θ使得均方误差最小化。
2.线性回归的代价函数与目标函数
损失函数(Loss Function):度量单样本预测的错误程度,损失函数值越小,模型就越好。
代价函数(Cost Function):度量全部样本集的平均误差。
目标函数(Object Function):代价函数和正则化函数,最终要优化的函数。正则化是为了防止过拟合。
3.线性回归的几种优化方法
梯度下降法
θ
\theta
θ迭代公式:
θ
j
=
θ
j
+
α
∑
i
=
1
n
(
y
(
i
)
−
f
θ
(
x
)
(
i
)
)
x
j
(
i
)
\theta_j = \theta_j + \alpha\sum_{i=1}^{n}(y^{(i)}-f_\theta(x)^{(i)})x_j^{(i)}
θj=θj+αi=1∑n(y(i)−fθ(x)(i))xj(i)
下标j表示第j个参数,上标i表示第i个样本。
向量形式表示为
θ
=
θ
+
α
∑
i
=
1
n
(
y
(
i
)
−
f
θ
(
x
)
(
i
)
)
x
(
i
)
\theta= \theta+ \alpha\sum_{i=1}^{n}(y^{(i)}-f_\theta(x)^{(i)})x^{(i)}
θ=θ+αi=1∑n(y(i)−fθ(x)(i))x(i)
上式是对应所有的训练样本,称为批梯度下降法。
每一次对单个样本进行迭代更新成为随机梯度下降法,迭代公式为
θ
=
θ
+
α
(
y
(
i
)
−
f
θ
(
x
)
(
i
)
)
x
(
i
)
\theta = \theta + \alpha(y^{(i)}-f_\theta(x)^{(i)})x^{(i)}
θ=θ+α(y(i)−fθ(x)(i))x(i)
批量梯度下降—最小化所有训练样本的损失函数,使得最终求解的是全局的最优解,即求解的参数是使得风险函数最小,但是对于大规模样本问题效率低下。
随机梯度下降—最小化每条样本的损失函数,虽然不是每次迭代得到的损失函数都向着全局最优方向, 但是大的整体的方向是向全局最优解的,最终的结果往往是在全局最优解附近,适用于大规模训练样本情况。
最小二乘法
θ
\theta
θ迭代公式:
θ
=
(
X
T
X
)
(
−
1
)
X
T
Y
\theta = (X^TX)^{(-1)}X^TY
θ=(XTX)(−1)XTY
牛顿法
θ
\theta
θ迭代公式:
θ
=
θ
−
l
′
(
θ
)
l
′
′
(
θ
)
\theta =\theta-\frac{l'(\theta)}{l''(\theta)}
θ=θ−l′′(θ)l′(θ)
l
(
θ
)
l(\theta)
l(θ)是损失函数。