【机器学习笔记】判别模型和生成模型（贝叶斯估计）

最新推荐文章于 2022-10-18 19:06:35 发布

Preke

最新推荐文章于 2022-10-18 19:06:35 发布

阅读量1.8k

点赞数 2

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/u013398398/article/details/78178085

版权

13 篇文章 0 订阅

订阅专栏

先验概率是在缺乏某个事实的情况下描述一个变量; 而后验概率是在考虑了一个事实之后的条件概率. 先验概率通常是经验丰富的专家的纯主观的估计.

不妨重新考虑一下LR的过程来理解,因为这就是一个判别模型，我总是在用这个例子。
我们有一堆样本点 $(x_1,y_1),(x_2,y_2),...,(x_n,y_n)$ ，
希望通过训练，用一个 $h_{\theta}(x)$ 来拟合 $y$ 的值。

我们拥有的样本点 $x_i$ 就是 $h_\theta(x)$ 的输入参数，是一个特征向量，相当于，我们已经知道了对每个样本的哪些特征去建模。所以，我们是相当于对 $p(y|x)$ 来建模，这个模型由参数 $\theta$ 决定，所以，每个样本被正确预测的概率为：

p (y | x; θ) = (h θ (x)) y (1 - h θ (x)) 1 - y

$p(y|x;\theta)=(h_\theta(x))^y(1-h_\theta(x))^{1-y}$

模型的构建就基于最大似然所有样本被正确预测的联合分布率：

L (θ) = \prod i = 1 m p (y (i) | x (i); θ)

$L(\theta)=\prod_{i=1}^mp(y^{(i)}|x^{(i)};\theta)$

求解过程就不说了，得到的 $\theta$ 就是预测函数 $h_\theta(x)$ 的参数。

所以总结来看，我们是已知了对怎样的 $x$ 去建模，并且是对这样一个条件概率 $p(y|x)$ 来建模。

换一种思路，如果不采用如上的做法，比如，我不知道怎么提特征，

我们取到所有 $y=0$ 的样本，同时取到 $y=1$ 的所有样本，想看一下他们的样本分布有何不同，然后如果来一个新的样本点，我们看它更拟合哪种分布。（这一点如果不太理解，可以去看看讲义里elephant和dog的例子）

所以我们是对 $p(x|y=0), p(x|y=1)$ 建模，（暂时先不管参数），也就是对 $p(x|y)$ 建模，但是，我们的目的仍然是依据 $x$ 的一些信息来预测他属于哪个类别，也就是说，还是想求得 $p(y|x)$ ，所以，根据贝叶斯公式：

p (y | x) = p ( x | y ) p ( y ) p ( x )

$p(y|x) = \frac{p(x|y)p(y)}{p(x)}$
我们就还需要对

p(y) $p(y)$ 建模，
所以生成模型是对

p(x|y),p(y) $p(x|y),p(y)$ 建模。

然后训练的时候，仍然是最大似然样本的联合分布率：

L (p a r a m e t e r s) = \prod i = 1 n p (x (i) | y (i); p a r a m e t e r s) p (y (i); p a r a m e t e r s)

$L(parameters) = \prod_{i=1}^np(x^{(i)}|y^{(i)};parameters)p(y^{(i)};parameters)$

所以这里可以看出一个比较：

这里的先验概率就是 $p(y)$ ;
而后验概率就是 $p(y|x)$ ;
也就是说，我们的模型训练过程是在最大化样本的后验概率。而在这里，我们是通过最大化联合概率 $p(x|y)p(y)$ 来达到这一目的。

我尤其喜欢最后的一个例子
捕获.PNG-19.3kB
我随手画了一个，假设我们构建了 $p(x|y=0)$ 和 $p(x|y=1)$ 的分布函数，如上图的两个高斯分布（以高斯分布为例子），那么我们再去根据贝叶斯公式计算 $p(y|x)$ 的时候，就会得到一个类似sigmoid的函数，很神奇~

简单来说，判别模型就是对 $p(y|x)$ 建模，而生成模型则是对 $p(x|y)$ 和 $p(y)$ 建模。

关注

专栏目录