CS229学习笔记之概率解释与局部加权线性回归

最新推荐文章于 2019-10-02 15:10:55 发布

xxwywzy

最新推荐文章于 2019-10-02 15:10:55 发布

阅读量358

点赞数 1

分类专栏：机器学习-CS229 文章标签：机器学习 CS229 斯坦福大学

本文链接：https://blog.csdn.net/u012946504/article/details/78785583

版权

机器学习-CS229 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

系列第二篇~

线性回归模型的概率解释

在线性回归中，为什么要选择最小二乘函数作为代价函数？我们可以用概率模型来对其进行解释。

概率模型

假设真实值与输入之间满足如下等式：

y (i) = θ T x (i) + ϵ (i)

$y^{(i)} = \theta^Tx^{(i)}+\epsilon^{(i)}$
其中

ϵ(i) $\epsilon^{(i)}$ 是误差项，表示没有被建模的因素或是随机噪声。进一步假设误差项是独立同分布的，那么根据中心极限定理，大量相互独立的随机变量之和是符合正态分布（可以理解为大量独立随机变量的大部分误差会相互抵消），即

ϵ(i)∼(0,σ2) $\epsilon^{(i)}\sim {\cal N} (0,\sigma^2)$ ，那么有：

p (ϵ (i)) = 1 2 π ‾ ‾ ‾ \sqrt σ exp (- ( ϵ ( i ) ) 2 2 σ 2)

$p(\epsilon^{(i)}) = \frac{1}{\sqrt{2\pi}\sigma}\text{exp}\left(-\frac{(\epsilon^{(i)})^2}{2\sigma^2}\right)$
因为误差的概率和预测出真实值的概率是一样的，因此：

p (y (i) ∣ x (i); θ) = 1 2 π ‾ ‾ ‾ \sqrt σ exp (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2)

$p(y^{(i)} \,\rvert \,x^{(i)};\theta ) = \frac{1}{\sqrt{2\pi}\sigma}\text{exp}\left(-\frac{(y^{(i)} - \theta^Tx^{(i)})^2}{2\sigma^2}\right)$
注意，这里

p(y(i)∣x(i);θ) $p(y^{(i)} \,\rvert \,x^{(i)};\theta )$ 不同于

p(y(i)∣x(i),θ) $p(y^{(i)} \,\rvert \,x^{(i)},\theta )$ ，这里指给定

x(i) $x^{(i)}$ ，以

θ $\theta$ 为参数的

y(i) $y^{(i)}$ 的分布，因为对于训练集，

θ $\theta$ 是客观存在的，只是当前还不确定，所以有

y (i) ∣ x (i); θ \sim  (θ T x (i), σ 2)

$y^{(i)} \,\rvert \,x^{(i)};\theta\sim {\cal N }(\theta^Tx^{(i)},\sigma^2)$
即真实值应该是以预测值为中心的一个正态分布。

似然函数

给定训练集 ${X}$ 和参数 $\theta$ ，预测结果等于真实结果的概率，将其看作 $\theta$ 的函数，可以理解为 $\theta$ 为真实 $\theta$ 的可能性（似然性），即：

L (θ) = L (θ; X, y ⃗) = p (y ⃗ ∣ X; θ)

$L(\theta)=L(\theta;X,\vec y)=p(\vec y \,\rvert\, X;\theta)$
因为假设

ϵ(i) $\epsilon^{(i)}$ 是独立的（即给定

x(i) $x^{(i)}$ ，

y(i) $y^{(i)}$ 也是独立的），所以有：

L (θ) = \prod i = 1 m p (y (i) ∣ x (i); θ) = \prod i = 1 m 1 2 π ‾ ‾ ‾ \sqrt σ exp (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2)

$\begin{align*} L(\theta) &= \prod_{i=1}^m p(y^{(i)}\,\lvert\,x^{(i)};\theta)\\ &=\prod_{i=1}^m \frac{1}{\sqrt{2\pi}\sigma}\text{exp}\left(-\frac{(y^{(i)} - \theta^Tx^{(i)})^2}{2\sigma^2}\right) \end{align*}$
现在，我们可以通过 最大似然法，即找出使

L(θ) $L(\theta)$ 最大的那个

θ $\theta$ ，作为对参数

θ $\theta$ 的最佳取值。

实际应用中，为了简化计算，通常不直接求似然函数的最大值，而是采用对数似然函数：

ℓ (θ) = log L (θ) = log \prod i = 1 m 1 2 π ‾ ‾ ‾ \sqrt σ exp (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2) = \sum i = 1 m log 1 2 π ‾ ‾ ‾ \sqrt σ exp (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2) = m log 1 2 π ‾ ‾ ‾ \sqrt σ - 1 σ 2 \cdot 1 2 \sum i = 1 m (y (i) - θ T x (i)) 2

$\begin{align*} \ell(\theta) &= \text{log}L(\theta)\\ &= \text{log}\prod_{i=1}^m \frac{1}{\sqrt{2\pi}\sigma}\text{exp}\left(-\frac{(y^{(i)} - \theta^Tx^{(i)})^2}{2\sigma^2}\right)\\ &= \sum_{i=1}^m\text{log}\frac{1}{\sqrt{2\pi}\sigma}\text{exp}\left(-\frac{(y^{(i)} - \theta^Tx^{(i)})^2}{2\sigma^2}\right)\\ &=m\text{log}\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{\sigma^2} \cdot \frac 1 2 \sum_{i=1}^m(y^{(i)} - \theta^Tx^{(i)})^2 \end{align*}$
因此，最大化

l(θ) $l(\theta)$ 就是最小化：

1 2 \sum i = 1 m (y (i) - θ T x (i)) 2

$\frac 1 2 \sum_{i=1}^m(y^{(i)} - \theta^Tx^{(i)})^2$
而这正是我们之前提出的 最小二乘代价函数！

注意点：

概率解释只是对最小二乘法的一种合理解释，其实还有其他的解释方法
$\theta$ 的选择并不依赖于 $\sigma^2$ ，即使它是未知的

局部加权线性回归

欠拟合与过拟合

对于传统的线性回归，特征的选择极为重要，对于下面三幅图，我们称第一幅图的模型是欠拟合，第三幅图的模型则是过拟合。

这里写图片描述

可以看出，找到一个全局的线性模型去拟合整个训练集，并不是一件简单的事情，往往会引起欠拟合或是过拟合的发生，对于这种情况之后会给出解决方案，而这里我们提出了另外一种思路，即局部线性加权回归，这种方案可以使特征的选择的重要性降低。

算法思路

局部线性加权回归的思路是并不去拟合整个训练集来产生全局的模型，而是在每次预测时，只去拟合给定输入x附近的一小段训练集，无论全局训练集是怎样的一条分布曲线，在局部小段数据上，都可以用线性去逼近。具体步骤如下：

1. 2. Fit θ to minimize \sum i ω (i) (y (i) - θ T x (i)) 2 Output θ T x

$\begin{align*} 1.\,& \text{Fit} \;\theta\;\text{to minimize}\;\sum_i\omega^{(i)}(y^{(i)} - \theta^Tx^{(i)})^2\\ 2.\,& \text{Output} \;\theta^Tx \end{align*}$
这里

ω(i) $\omega^{(i)}$ 是非负权重，一般取为