【学习笔记】斯坦福大学公开课（机器学习）之概率解释

最新推荐文章于 2022-06-07 11:17:48 发布

好奇的大白

最新推荐文章于 2022-06-07 11:17:48 发布

阅读量705

点赞数

分类专栏：机器学习文章标签：机器学习斯坦福大学

本文链接：https://blog.csdn.net/li_ximin/article/details/68925742

版权

机器学习专栏收录该内容

18 篇文章 0 订阅

订阅专栏

Probabilistic Interpretation

当遇到一个回归问题时，为什么会用线性回归，尤其是使用最小二乘法损失函数 $J(θ)$ 是比较可靠的？
假设目标变量和输入的关联可以由下面的公式表示：

y (i) = θ T x (i) + ϵ (i),

$y^{(i)}=θ^Tx^{(i)}+\epsilon^{(i)},$
其中

ϵ(i) $\epsilon^{(i)}$ 是一个误差项，包含了一些没有归到模型中的特征变量和一些随机的误差。
我们进一步,按照正态分布，假设

ϵ(i) $\epsilon^{(i)}$ 是独立同分布，把这个假设写为公式表示：

ϵ (i) \sim N (μ, σ 2)

$\epsilon^{(i)}∼N(\mu,\sigma^2)$
同样地：

p (ϵ (i)) = 1 2 π - - \sqrt σ e x p (- ( ϵ ( i ) ) 2 2 σ 2)

$p(\epsilon^{(i)})=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(\epsilon^{(i)})^2}{2\sigma^2})$
这也可以推导出：

p (y (i) | x (i); θ) = 1 2 π - - \sqrt σ e x p (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2)

$p(y^{(i)}|x^{(i)};\theta)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)}-θ^Tx^{(i)})^2}{2\sigma^2})$
其中，

p(y(i)|x(i);θ) $p(y^{(i)}|x^{(i)};\theta)$ 表明这是一个已知

x(i) $x^{(i)}$ ,拥有

θ $\theta$ 的关于

y(i) $y^{(i)}$ 的分布，需要注意的是

θ $\theta$ 不是一个随机变量（这个变量是我们为了描述模型而规定的变量，不具有概率上的随机性）。
那么

y(i) $y^{(i)}$ 就是满足的高斯分布,如下式表示：

y (i) | x (i); θ \sim N (θ T x (i), σ 2)

$y^{(i)}|x^{(i)};\theta∼N(\theta^Tx^{(i)},\sigma^2)$
已知

X $X$ 和

θ $\theta$ ，那么

y⃗ $\vec{y}$ 的分布又是怎么样的呢？这个概率值我们用式子

p(y⃗ |X;θ) $p(\vec{y}|X;\theta)$ 来表示。我们把这个式子作为

θ $\theta$ 的函数时，我们就可以称之为似然函数，用数学来表示这样的概念如下：

L (θ) = L (θ; X, y ⃗) = p (y ⃗ | X; θ)

$L(\theta)=L(\theta;X,\vec{y})=p(\vec{y}|X;\theta)$
可以看出，

y⃗ $\vec{y}$ (这里的

y⃗ $\vec{y}$ 是

y(i) $y^{(i)}$ 的集合)的概率与似然函数

L(θ) $L(\theta)$ 相等，那么考虑到

ϵ(i) $\epsilon^{(i)}$ 的独立性，似然函数可以写为：

L (θ) = \prod i = 1 m p (y (i) | x (i); θ) = \prod i = 1 m 1 2 π - - \sqrt σ e x p (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2)

$\begin{align} L(\theta) &=\prod_{i=1}^mp(y^{(i)}|x^{(i)};\theta) \\ &=\prod_{i=1}^m\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}) \end{align}$
现在我们知道了这个关于

y(i) $y^{(i)}$ 和

xi $x^{i}$ 的概率模型，那么我们怎么样来选择一个让

θ $\theta$ 最优的可靠方法？通过最大似然估计法则可以知道我们需要求得一个

θ $\theta$ 值，让

L(θ) $L(\theta)$ 最大。
我们可以对

L(θ) $L(\theta)$ 求log(可以根据对数的性质，把积转换为和)来简化我们求最大值的过程：

l (θ) = l o g L (θ) = l o g \prod i = 1 m 1 2 π - - \sqrt σ e x p (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2) = \sum i = 1 m l o g 1 2 π - - \sqrt σ e x p (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2) = m l o g 1 2 π - - \sqrt σ - 1 σ 2 * 1 2 \sum i = 1 m (y (i) - θ T x (i)) 2

$\begin{align} l(\theta) &= logL(\theta) \\ &= log\prod_{i=1}^m\frac{1} {\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}) \\ &=\sum_{i=1}^{m}log\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}) \\ &=mlog\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{\sigma^2}*\frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-\theta^Tx^{(i)})^2 \end{align}$
将等式演化到这个程度时，可以看到要最大化

l(θ) $l(\theta)$ ，我们需要将