线性回归及其概率解释

最新推荐文章于 2024-06-06 23:15:00 发布

Flying_sfeng

最新推荐文章于 2024-06-06 23:15:00 发布

阅读量3.6k

点赞数 1

文章标签：机器学习

本文链接：https://blog.csdn.net/Flying_sfeng/article/details/77993707

版权

机器学习专栏收录该内容

22 篇文章 6 订阅

订阅专栏

线性回归是一种监督学习方法.
对每个样本来说：

h θ (x) = θ 0 + θ 1 x 1 + θ 2 x 2 + . . . + θ n x n

$h_\theta(x) = \theta_0 + \theta_1\,x_1 + \theta_2\,x_2 +...+ \theta_n\,x_n$
即：

h (x) = \sum i = 0 n θ i x i = θ T X

$h(x) = \sum_{i=0}^n \theta_i\,x_i = \theta^T\,X$
其中，

hθ(x) $h_\theta(x)$ 为预测值，

xi $x_i$ 为样本的第i个特征，且

x0=1 $x_0 = 1$ ；

θi $\theta_i$ 为该特征下的权重。线性回归就是要在已有的样本特征和标签下学习特征权重，从而在待测样本中应用学习好的特征权重，得到待测样本的标签。
定义损失函数：

J (θ) = 1 2 \sum i = 1 m (h θ (x (i) - y (i))) 2

$J(\theta) = {1\over 2}\sum_{i=1}^m (h_\theta(x^{(i)} - y^{(i)}))^2$
我们的目的是找到最优的

θ $\theta$ 来最小化

J(θ) $J(\theta)$ , 使用梯度下降方法：

θ j = θ j - α \partial J ( θ ) \partial θ j

$\theta_j = \theta_j - \alpha{\partial J(\theta)\over \partial \theta_j}$
对每一个样本来说：

\partial J ( θ ) \partial θ j = = = \partial \partial θ j 1 2 (h θ (x) - y) 2 (h θ (x) - y) \partial h θ ( x ) \partial θ j (h θ (x) - y) x j

$\begin{eqnarray*} {\partial J(\theta)\over \partial \theta_j} & = & {\partial\over \partial\theta_j}{1\over 2}(h_\theta(x) - y)^2 \\ & = & (h_\theta(x) - y){\partial h_\theta(x)\over \partial \theta_j} \\ & = & (h_\theta(x) - y)x_j \end{eqnarray*}$
因此:

θ j = θ j - α (h θ (x (i)) - y (i)) x (i) j

$\theta_j = \theta_j - \alpha(h_\theta(x^{(i)}) - y^{(i)})x^{(i)}_j$
其中i表示第i个样本。上式表示第i个样本第j个特征的权重的优化。
接下来，我们来了解几种求解最优参数的方法。

1 批量梯度下降（batch gradient descent(BGD)）：
不断迭代下式直到收敛{

θ j = θ j - α \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j (f o r e v e r y j)

$\theta_j = \theta_j - \alpha\sum_{i=1}^m(h_\theta(x^{(i)}) - y^{(i)})x^{(i)}_j \ (for \ every \ j)$ }
由上式可知，每一次迭代都要遍历所有样本，因此，当样本量很大时，批量梯度下降法迭代时间会很长。

2 随机梯度下降（stochastic gradient descent(SGD)）:
不断迭代下式直到收敛{
for i = 1 to m,{

θ j = θ j - α (h θ (x (i)) - y (i)) x (i) j (f o r e v e r y j)

$\theta_j = \theta_j - \alpha(h_\theta(x^{(i)}) - y^{(i)})x^{(i)}_j \ \ \ \ (for \ every \ j)$ }
}
由上式可知，随机梯度下降法每一次迭代只使用一个训练样本，因此可以大大缩小迭代时间。

3 mini-batch gradient descent，具体是指：在每一次迭代中，随机选取若干个训练样本（比如50个），使用上述梯度下降方法进行参数优化，多次迭代直到收敛。该方法的速度比BGD快，比SGD慢；精度比BGD低，比SGD高。

以上，便是使用批量梯度下降法和随机梯度下降法求解线性回归最优参数的过程，接下来，讲解一下使用矩阵求导的方式求解最优参数，这部分比较简单，如果懂得二范数求导的话，可以直接推导出来。
首先，了解一下向量求导法则：前导不变，后导转置。比如：

\partial ( x T w ) \partial x = w

${\partial (x^Tw)\over \partial x} = w$

\partial ( w x ) \partial x = w T

${\partial (wx)\over \partial x} = w^T$

\partial ( x T A x ) \partial x = (A + A T) x

${\partial (x^TAx)\over \partial x} = (A + A^T)x$
4 矩阵求导优化：

J (θ) = = = 1 2 \sum i = 1 m (h θ (x (i) - y (i))) 2 1 2 (Y - X θ) T (Y - X θ) 1 2 (Y T Y - Y T X θ - θ T X T Y - θ T X T X θ)

$\begin{eqnarray*} J(\theta) & = & {1\over 2}\sum_{i=1}^m (h_\theta(x^{(i)} - y^{(i)}))^2 \\ & = & {1\over 2}(Y-X\theta)^T(Y - X\theta) \\ & = & {1\over 2}(Y^TY - Y^TX\theta - \theta^TX^TY - \theta^TX^TX\theta) \end{eqnarray*}$
其中X的行表示样本，列表示特征：

Y - X θ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ y 1 y 2 y 3 ⋮ y m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ - ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x 11 x 21 x 31 ⋮ x m 1 x 12 x 22 x 32 ⋮ x m 2 x 13 x 23 x 33 ⋮ x m 3 \dots \dots \dots ⋱ \dots x 1 n x 2 n x 3 n ⋮ x m n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ * ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ w 1 w 2 w 3 ⋮ w m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$Y - X\theta = \begin{bmatrix} y_1 \\ y_2 \\ y_3 \\ \vdots \\ y_m \end{bmatrix} - \begin{bmatrix} x_{11} & x_{12} & x_{13} & \cdots & x_{1n}\\ x_{21} & x_{22} & x_{23} & \cdots & x_{2n} \\ x_{31} & x_{32} & x_{33} & \cdots & x_{3n} \\ \vdots & \vdots & \vdots &\ddots &\vdots \\ x_{m1} & x_{m2} & x_{m3} & \cdots & x_{mn} \end{bmatrix} * \begin{bmatrix} w_1 \\ w_2 \\ w_3 \\ \vdots \\ w_m \end{bmatrix}$

令导数等于零：

\partial J ( θ ) \partial θ = 1 2 (X T Y - X T Y - (X T X + X T X) θ) = 0

$\begin{eqnarray*} {\partial J(\theta)\over \partial \theta} & = & {1\over 2}(X^TY - X^TY - (X^TX + X^TX)\theta) & = & 0 \end{eqnarray*}$
因此：

θ = (X T X) - 1 X T Y

$\theta = (X^TX)^{-1}X^TY$
值得注意的是，上述公式中包含

(XTX)−1 $(X^TX)^{-1}$ , 也就是需要对矩阵求逆，因此这个方程只在逆矩阵存在时适用。当然，当逆矩阵不存在时也可以用广义逆求解，此处不展开。同时，该方法虽然简单，但是当样本特征很大时，计算

(XTX)−1 $(X^TX)^{-1}$ 的时间复杂度会很高。

概率解释：
我们应该想这样一个问题：当我们讨论回归问题时，我们为什么要最小化平方损失函数？在CS229的课程中，吴恩达教授给我们做了详细的概率解释。现总结如下：
对单个样本来说：

y (i) = θ T x (i) + ε (i)

$y^{(i)} = \theta^Tx^{(i)} + \varepsilon^{(i)}$
其中

ε(i) $\varepsilon^{(i)}$ 为预测误差，我们假定样本的误差属于独立同分布。
根据中心极限定理：多个随机变量的和符合正态分布；因为误差的随机性，

ε(i) $\varepsilon^{(i)}$ 符合均值为0，方差为

σ2 $\sigma^2$ 的正态分布，即假定

ε(i)−N(0,σ2) $\varepsilon^{(i)} - N(0,\sigma^2)$ ,因此：

p (ϵ (i)) = = 1 2 π - - \sqrt σ e x p (- ϵ ( i ) 2 2 σ 2) 1 2 π - - \sqrt σ e x p (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2)

$\begin{eqnarray*} p(\epsilon^{(i)}) & = & {1\over \sqrt{2\pi}\sigma}exp(-{{\epsilon^{(i)}}^2\over 2\sigma^2}) \\ & = & {1\over \sqrt{2\pi}\sigma}exp(-{{(y^{(i)} - \theta^Tx^{(i)})}^2\over 2\sigma^2}) \end{eqnarray*}$
上述第2个等式表明，给定

θ $\theta$ , 在

x(i) $x^{(i)}$ 的条件下，

y(i) $y^{(i)}$ 符合正态分布，且均值为

θTx(i) $\theta^Tx^{(i)}$ ,方差为

σ2 $\sigma^2$ ,即

y(i)|x(i);θ−N(θTx(i),σ2) $y^{(i)}|x^{(i)};\theta - N(\theta^Tx^{(i)},\sigma^2)$
因此：

p (y (i) | x (i); θ) = 1 2 π - - \sqrt σ e x p (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2)

$p(y^{(i)}|x^{(i)};\theta) = {1\over \sqrt{2\pi}\sigma}exp(-{{(y^{(i)} - \theta^Tx^{(i)})}^2\over 2\sigma^2})$
似然函数：

L (θ) = L (θ; X, Y) = p (Y | X; θ)

$L(\theta) = L(\theta;X,Y) = p(Y|X;\theta)$
由于

ϵ(i) $\epsilon^{(i)}$ 的独立性假设，所以上式可以写成：

L (θ) = = \prod i = 1 m p (y (i) | x (i); θ) \prod i = 1 m 1 2 π - - \sqrt σ e x p (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2)

$\begin{eqnarray*} L(\theta) &=& \prod_{i=1}^mp(y^{(i)}|x^{(i)};\theta) \\ &=& \prod_{i=1}^m{1\over \sqrt{2\pi}\sigma}exp(-{{(y^{(i)} - \theta^Tx^{(i)})}^2\over 2\sigma^2}) \end{eqnarray*}$
我们的目的是求得使

L(θ) $L(\theta)$ 最大时的

θ $\theta$ ,此即最大似然估计。
为了方便计算，取对数似然估计

l(θ) $l(\theta)$ :

l (θ) = = = = = l o g L (θ) l o g \prod i = 1 m p (y (i) | x (i); θ) \prod i = 1 m 1 2 π - - \sqrt σ e x p (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2) \sum i = 1 m l o g 1 2 π - - \sqrt σ e x p (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2) m l o g 1 2 π - - \sqrt σ - 1 2 σ 2 \sum i = 1 m (y (i) - θ T x (i)) 2

$\begin{eqnarray*} l(\theta) &=& logL(\theta) \\ &=& log\prod_{i=1}^mp(y^{(i)}|x^{(i)};\theta) \\ &=& \prod_{i=1}^m{1\over \sqrt{2\pi}\sigma}exp(-{{(y^{(i)} - \theta^Tx^{(i)})}^2\over 2\sigma^2}) \\ &=& \sum_{i=1}^mlog{1\over \sqrt{2\pi}\sigma}exp(-{{(y^{(i)} - \theta^Tx^{(i)})}^2\over 2\sigma^2}) \\ &=& mlog{1\over \sqrt{2\pi}\sigma} - {1\over 2\sigma^2}\sum_{i=1}^m{(y^{(i)} - \theta^Tx^{(i)})}^2 \end{eqnarray*}$
因此，最大化

l(θ) $l(\theta)$ 就相当于最小化