机器学习之线性回归

最新推荐文章于 2023-06-12 23:12:07 发布

_bigPo

最新推荐文章于 2023-06-12 23:12:07 发布

阅读量627

点赞数

分类专栏：机器学习文章标签：机器学习线性回归

本文链接：https://blog.csdn.net/firethelife/article/details/51694829

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

线性回归的函数表示

线性回归就是用线性方程去拟合一组数据, $x$ 的最高阶是1, 用方程可以表示为:

h θ (x) = θ 0 + θ 1 x 1 + \dots + θ n x n

$h_\theta(x) = \theta_0 + \theta_1x_1 + \cdots + \theta_nx_n$

我们令 $x_0 = 1$ 则上式可以改写为:

h (x) = \sum i = 0 n θ i x i = θ T x

$h(x) = \sum_{i=0}^n \theta_ix_i = \theta^Tx$

代价函数

既然是拟合的模型, 则肯定会存在不符合该模型的点, 第 $i$ 个点的真实值与模型预测的值之间的差称为误差:

e = h (x (i)) - y (i)

$e = h(x^{(i)}) - y^{(i)}$

假设总共有 $m$ 个数据点, 则我们定义代价函数为：

J (θ) = 1 2 \sum i = 1 m (h (x (i)) - y (i)) 2

$J(\theta) = \frac 12 \sum_{i=1}^m(h(x^{(i)}) - y^{(i)})^2$

我们的目的是使总的误差最小, 只需求得使 $J(\theta)$ 最小的 $\theta$ 即可。

代价函数的概率解释

那代价函数为什么是这个形式的呢? 我们可以假定目标变量具有如下的形式

y (i) = θ T x (i) + ϵ (i)

$y^{(i)} = \theta^Tx^{(i)} + \epsilon^{(i)}$

其中 $\epsilon^i$ 是服从 $\mathcal{N}(0, \sigma^2)$ 的且满足iid的随机噪声, 其概率密度可写作为:

p (ϵ (i)) = 1 2 π - - \sqrt σ e x p (- ( ϵ ( i ) ) 2 2 σ 2)

$p(\epsilon^{(i)}) = \frac{1}{\sqrt{2\pi}\sigma}\mathrm{exp}(-\frac{(\epsilon^{(i)})^2}{2\sigma^2})$

也即:

p (y (i) | x (i); θ) = 1 2 π - - \sqrt σ e x p (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2)

$p(y^{(i)}|x^{(i)};\theta) = \frac{1}{\sqrt{2\pi}\sigma}\mathrm{exp}(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2})$

因为参数 $\theta$ 未知, 我们寻求使满足 $(x^i,y^i)$ 可能性最高的 $\theta$ 值估计:

L (θ) = \prod i = 1 m p (y (i) | x (i); θ) = \prod i = 1 m 1 2 π - - \sqrt σ e x p (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2)

$\begin{align} L(\theta) &= \prod_{i=1}^m p(y^{(i)}|x^{(i)};\theta) \\ &= \prod_{i=1}^m\frac{1}{\sqrt{2\pi}\sigma}\mathrm{exp}(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}) \end{align}$

为了计算上的方便, 使两边取对数, 则有:

l (θ) = l o g L (θ) = l o g \prod i = 1 m 1 2 π - - \sqrt σ e x p (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2) = \sum i = 1 m l o g 1 2 π - - \sqrt σ e x p (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2) = m l o g 1 2 π - - \sqrt σ - 1 σ 2 \cdot 1 2 \sum i = 1 m (y (i) - θ T x (i)) 2

$\begin{align} l(\theta) &= \mathrm{log} L(\theta) \\ &= \mathrm{log}\prod_{i=1}^m\frac{1}{\sqrt{2\pi}\sigma}\mathrm{exp}(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}) \\ &= \sum_{i=1}^m \mathrm{log}\frac{1}{\sqrt{2\pi}\sigma}\mathrm{exp}(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}) \\ &= m\mathrm{log}\frac{1}{\sqrt{2\pi}\sigma} - \frac{1}{\sigma^2}\cdot\frac12\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2 \end{align}$

从上面式子的结果可以看出, 我们只须令

1 2 \sum i = 1 m (y (i) - θ T x (i)) 2

$\frac12\sum_{i=1}^m(y^{(i)}-\theta^T x^{(i)})^2$

取最小值即可. 这便是为什么在线性回归中使用均方误差作为性能度量的一个解释。

求最优参数 $\theta$

由于代价函数 $J(\theta)$ 是凸函数, 存在全局最优解.
下面介绍两种方法:

梯度下降

由于梯度是函数下降最快的方向, 因此我们可以重复对 $J(\theta)$ 做梯度下降使其收敛到全局最小.
更新 $\theta$ 的步骤为:

θ j : = θ j - α \partial \partial θ j J (θ)

$\theta_j := \theta_j - \alpha\frac{\partial}{\partial\theta_j}J(\theta)$

其中 $\alpha$ 是学习率.假设现在我们只有一个样本 $(x, y)$ 来看看如何求:

\partial \partial θ j J (θ) = \partial \partial θ j 1 2 (h (θ) - y) 2 = (h (x) - y) \cdot \partial \partial θ j (h (x) - y) = (h (x) - y) \cdot \partial \partial θ j (θ 0 x 0 + θ 1 x 1 + \dots + θ j x j + \dots + θ n x n - y) = (h (x) - y) x j

$\begin{align} \frac{\partial}{\partial\theta_j}J(\theta) &= \frac{\partial}{\partial\theta_j}\frac12(h(\theta)-y)^2 \\ &= (h(x)-y)\cdot\frac{\partial}{\partial\theta_j}(h(x)-y) \\ &= (h(x)-y)\cdot\frac{\partial}{\partial\theta_j}(\theta_0x_0 + \theta_1x_1 + \cdots +\theta_jx_j+\cdots+ \theta_nx_n-y) \\ &= (h(x)-y)x_j \end{align}$

根据以上导出的式子可以看出, 对于只有一个数据点的情形, 参数 $\theta$ 的更新规则为:

θ j : = θ j + α (y - h (x)) x j

$\theta_j := \theta_j + \alpha(y-h(x))x_j$

那么考虑所有的 $m$ 个数据点之后的更新式子为:

θ j : = θ j + α 1 m \sum i = 1 m (y (i) - h (x (i))) x (i) j

$\theta_j := \theta_j + \alpha\frac1m\sum_{i=1}^m(y^{(i)}-h(x^{(i)}))x_j^{(i)}$

随机梯度下降

我们从上面更新 $\theta$ 的式子中可以看出, 每更新一个一个参数 $\theta_j$ , 我们都要进行m个样本的求和, 这样如果样本数非常大的话, 是非常消耗计算资源的. 为了避免上述问题, 我们可以只应用一个样本数据对参数进行更新.

θ j : = θ j + α (y i - h (x i)) x i j

$\theta_j := \theta_j + \alpha(y^i-h(x^i))x_j^i$

注意我们不保证随机梯度下降一定能收敛到全局最小, 但在实践中, 其收敛结果是足够接近最优 $\theta$ 的.

正规方程

$J(\theta)$ 写成向量形式可以表示为：

J (θ) = 1 2 \sum i = 1 m (h (x (i)) - y (i)) 2 = 1 2 (X θ - y ⃗) T (X θ - y ⃗)

$\begin{align} J(\theta) &= \frac12\sum_{i=1}^m(h(x^{(i)})-y^{(i)})^2 \\\ &= \frac12(X\theta-\vec{y})^T(X\theta-\vec{y}) \end{align}$

由于 $J(\theta)$ 有全局最优解, 我们令其导数为0可以直接求解最优参数.

\nabla θ J (θ) = \nabla θ (1 2 (X θ - y) T (X θ - y)) = \nabla θ (1 2 (θ T X T - y T) (X θ - y)) = \nabla θ (1 2 (θ T X T X θ - θ T X T y - y T X θ + y T y)) = 1 2 (2 X T X θ - X T y - (y T X) T) = X T X θ - x T y

$\begin{align} \nabla_{\theta}J(\theta) &= \nabla_{\theta}\left(\frac{1}{2} (X\theta - y)^T(X\theta - y)\right) \\ &= \nabla_{\theta}\left(\frac{1}{2} (\theta^TX^T - y^T)(X\theta - y)\right) \\ &= \nabla_{\theta}\left(\frac{1}{2} (\theta^TX^TX\theta - \theta^TX^Ty-y^TX\theta + y^Ty)\right) \\ &= \frac{1}{2} (2X^TX\theta - X^Ty-(y^TX)^T) \\ &= X^TX\theta-x^Ty \end{align}$

从而有

θ = (X T X) - 1 X T y

$\theta = (X^TX)^{-1}X^T y$

注意这一步的求解需要满足一个隐含的条件： $X^TX$ 是满秩的或是正定的。

岭回归

如果 $X^TX$ 不满秩，可以在代价函数上计入正则化项：

J' (θ) = 1 2 (X θ - y ⃗) T (X θ - y ⃗) + λ 2 ∥ θ ∥ 2

$J'(\theta) = \frac12(X\theta-\vec{y})^T(X\theta-\vec{y}) + \frac{\lambda}{2}\|\theta\|^2$

对该代价函数求导：

\nabla θ J' (θ) = X T X θ - X T y + λ θ

$\nabla_{\theta}J'(\theta) = X^TX\theta-X^Ty+\lambda\theta$

令其为0可得：

θ = (X T X + λ I) - 1 X T y

$\theta = (X^TX + \lambda I)^{-1}X^T y$

梯度下降法与正规方程的优劣比较

只要在训练样本的特征数 $n < 10000$ 的情况下, 都可以考虑使用正规方程, 因为它不需要选择学习率 $\alpha$ , 不需要一步一步的进行迭代. 而当 $n > 10000$ 时, 计算 $(X^TX)^{-1}$ 耗费的时间就不容忽视了, 其时间复杂度为 $O(n^3)$ , 此时推荐使用梯度下降法进行参数求解.

局部加权线性回归

线性回归可能存在的一个问题是欠拟合，因为它求的是具有最小均方误差的无偏估计，有些方法允许在估计中引入一些偏差，从而降低预测的均方误差。

我们为每个样本点赋予不同的权重，则代价函数可表示为：

J (θ) = 1 2 \sum i = 1 m w (i) (h (x (i)) - y (i)) 2

$J(\theta) = \frac12\sum_{i=1}^mw^{(i)}(h(x^{(i)})-y^{(i)})^2$

其中样本权重定义为：

w (i) = exp (- ( x ( i ) - x ) 2 2 τ 2)

$w^{(i)} = \exp\left(-\frac{(x^{(i)} - x)^2}{2\tau^2}\right)$

参数 $\tau$ 控制着权重随预测值 $x$ 与样本 $x^{(i)}$ 的距离衰减速率。

最后求得参数为：

θ = (X T W X) - 1 X T W y

$\theta = (X^TWX)^{-1}X^TWy$

可以看到每次预测 $x$ 的回归值，都要重新计算权系数矩阵 $W$ ，也就是说使用局部加权回归时需要储存训练样本，而线性回归则不需要。

_bigPo

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习之线性回归

线性回归线性回归的函数表示线性回归就是用线性方程去拟合一组数据, xx 的最高阶是1, 用方程可以表示为: hθ(x)=θ0+θ1x1+⋯+θnxnh_\theta(x) = \theta_0 + \theta_1x_1 + \cdots + \theta_nx_n我们令 x0=1x_0 = 1 则上式可以改写为: h(x)=∑i=0nθixi=θTxh(x) = \sum_{i=0}^
复制链接

扫一扫