吴恩达机器学习（五）最小二乘法的概率性解释

最新推荐文章于 2023-03-08 17:54:33 发布

sddfsAv

最新推荐文章于 2023-03-08 17:54:33 发布

阅读量616

点赞数

分类专栏：机器学习文章标签：最小二乘法回归问题最大似然估计似然函数

本文链接：https://blog.csdn.net/sddfsAv/article/details/88804644

版权

机器学习专栏收录该内容

7 篇文章 2 订阅

订阅专栏

吴恩达机器学习（五）最小二乘法的概率性解释

问题提出
分析流程

问题提出

当面临一个回归问题时，为什么目标函数要用以下的形式定义：
$\frac{1}{2}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$

分析流程

1.假设目标变量 $y$ 与输入量 $x$ 存在以下关系：
$y^{(i)}=\theta^Tx^{(i)}+\epsilon^{(i)}$
$\epsilon^{(i)}$ 为误差项，在预测房价中， $\epsilon$ 代表和房价十分相关的一些特征，但是线性回归中，我们并没有将这些特征纳入考虑。

2.假设 $\epsilon$ 服从独立同分布（IID）
独立同分布的定义：随机过程中，任何时刻取值均为随机变量，如果这些随机变量服从同一分布，并且相互独立，那么这些随机变量是独立同分布。
基于离散随机过程，解释一下这个定义：

随机变量
随机试验的样本空间为S，称定义在样本空间上的实值单值函数 $X=X(\omega)$ 为随机变量。
随机变量是对某一随机试验结果引入一个数来表示。比如抛硬币是一个随机试验，它的样本空间为S={正面，反面}。定义：当 $\omega=$ “正面”时， $X = X (正面) = 1$ ，当 $\omega=$ “反面”时， $X = X (反面) = 0$ ，正面、反面是自变量，引入1和0作为因变量来与自变量对应。
随机过程
一个随机过程 $X=\left\{ X(t),t\in T \right\}$ 是一族随机变量，简单理解就是在每个时刻 $t$ 都有一个随机变量 $X$ 。比如在每隔1s就抛硬币，则在1s,2s,3s…都有一个随机变量 $X$ 与其对应。
概率分布
对于离散随机变量 $X$ 的所有可能取值为 $x_i$ ，有 $P=\left\{X=x_i \right\}=p_i$ ，称为X的概率分布，也称概率函数。
仍用抛硬币的例子， $x_1=1$ 和 $x_2=0$ 的概率均为0.5，即 $p_1=0.5$ 和 $p_2=0.5$ 。
独立
不同时刻的随机变量不相互影响。举个不太恰当的反例，小时候你做错了事，你爸t1时刻扇了你一耳光，然后你的脸肿了一个包，假设这个包的高度为h1，然后很短间隔后的t2时刻，你爸又在同一个部位扇了你一耳光，此时你原来的那个包变成了h2。显然这个t2时刻包的高度受到h1的影响。这两个随机变量就不是相互独立的。

3.假设 $\epsilon$ 服从的概率分布为高斯分布 $\epsilon\sim N(0,\sigma^2)$
所以 $p(\epsilon^{(i)})=\frac{1}{2\sqrt{2\pi\sigma}}exp(-\frac{\epsilon^{(i)^2}}{2\sigma^2})$ ，将 $y^{(i)}=\theta^Tx^{(i)}+\epsilon^{(i)}$ 代入其中，得到：
$p(y^{(i)}|x^{(i)};\theta)=\frac{1}{2\sqrt{2\pi\sigma}}exp(-\frac {(y^{(i)}-\theta^Tx^{(i)})^2} {2\sigma^2})$
上式表示在给出 $x^{(i)}$ 及某一个 $\theta$ 后的 $y^{(i)}$ 的分布
4.最大似然估计
思想：在已经得到实验结果的情况下，应该寻找使这个结果出现的可能性最大的那个值 $\theta$ 作为 $\theta$ 的估计值。
我们已经得到了一些样本 $x^{(i)},y^{(i)})$ ，定义其似然函数为：
$L(\theta)=\Pi_{i=1}^mp(y^{(i)}|x^{(i)};\theta)$
根据最大似然估计的思想，我们需要选择一个 $\theta$ 使上式取得最大值。具体过程为：
$lnL(\theta)=ln\Pi_{i=1}^mp(y^{(i)}|x^{(i)};\theta)\\=\sum_{i=1}^mln(p(y^{(i)}|x^{(i)};\theta))\\=\sum_{i=1}^mln(\frac{1}{2\sqrt{2\pi\sigma}}exp(-\frac {(y^{(i)}-\theta^Tx^{(i)})^2} {2\sigma^2}))\\=\sum_{i=1}^mln(\frac{1}{2\sqrt{2\pi\sigma}})-\sum_{i=1}^m\frac {(y^{(i)}-\theta^Tx^{(i)})^2} {2\sigma^2}\\=nln(\frac{1}{2\sqrt{2\pi\sigma}})-\frac{1}{\sigma^2}\frac{1}{2}\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2$
要使上式最大，只需 $\frac{1}{2}\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2$ 最小即可。只要这个式子最小，则表明我们选择的 $\theta$ 能够最大可能地使这些样本出现。因此，我们选择这样的一个式子作为回归问题目标函数。

sddfsAv

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
吴恩达机器学习（五）最小二乘法的概率性解释

吴恩达机器学习（五）最小二乘法的概率性解释问题提出分析流程问题提出当面临一个回归问题时，为什么目标函数要用以下的形式定义：J=12∑i=1m(hθ(x(i))−y(i))2J= \frac{1}{2}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2J=21i=1∑m(hθ(x(i))−y(i))2分析流程1.假设目标变量yyy与输入量xxx存在...
复制链接

扫一扫