MLE、MAP、Bayesian-E、naive Bayes

最新推荐文章于 2022-07-15 19:50:02 发布

ictjue

最新推荐文章于 2022-07-15 19:50:02 发布

阅读量251

点赞数

文章标签： MLE MAP 贝叶斯估计朴素贝叶斯

本文链接：https://blog.csdn.net/ictjue/article/details/85068879

版权

MLE、MAP、Bayesian-E、naive Bayes

最大似然估计

最大似然估计是一种参数的估计的方法。通过最大化似然函数，求解此时的参数的值，它认为参数的是固定。模型估计中的最大似然估计：
已知数据 $D=\{x_1, x2, ..., x_n\}$ ,来估计模型的参数 $\theta$ 。利用极大似然估计的方法，我们先确定似然函数。
似然函数可以为已知数据发生的概率。我们通过对模型进行假设，最大化已知数据发生概率，来确定模型的参数值，表达式为：

$arg\underset{\theta}{max}\ p(D|\theta)$

一般通过假设样本之间相互独立，对似然函数取对数，令其导数为零来求得参数值。然后利用求得的参数进行预测。

贝叶斯估计

贝叶斯估计是一种对模型参数进行估计的方法。假设模型的参数服从一定分布，根据模型假设、贝叶斯公式、数据集求得模型参数的分布，预测时，求预测概率对于模型参数的期望作为最终结果。

贝叶斯公式：

$P(A|B)=\frac{P(B|A)*P(A)}{P(B)}$

假设模型参数服从一定的分布，但具体参数未知，根据贝叶斯公式可得

$p(\theta|D)=\frac{p(D|\theta)p(\theta)}{p(D)}$

假设数据集中的样本相互独立，则

$p(D|\theta) = \prod_{i=1}^{N}p(x_i|\theta)$

又

$p(D)=\int_\theta p(D|\theta)p(\theta)d\theta$

带入上上上式，得：

$p(\theta|D)=\frac{\prod_{i=1}^{N}p(x_i|\theta p(\theta)}{\int_\theta (\prod_{i=1}^{N}p(x_i|\theta))p(\theta)d\theta}$

即求出模型参数 $\theta$ 的概率分布。
当我们进行预测时候，即求 $p(\hat{x}|D)$ :

$p(\hat{x}|D)=\int_{\theta\in\Theta}p(\hat{x}|\theta)p(\theta|D)d\theta$

在使用贝叶斯估计方法对模型参数进行估计时，不仅考虑了似然函数的最大化，而且将数据的先验知识加入了计算，这样能够对模型的参数有一个更准确的估计。

最大后验概率估计

在贝叶斯估计中，我们需要求得模型参数的分布，利用此分布来对新的输入进行估计，但在实际应用过程中，贝叶斯估计的方法复杂度太高，因为我们需要求出模型参数的每一个可能的取值或者是表达式，再对其进行积分。这时候，我们可以将方法简化，不对关于 $\theta$ 的表达式求期望，而是跟最大似然估计类似，求取一个表达式的最大值时的 $\theta$ 值。虽然我们也将模型的参数视为符合一定分布的随机变量，但是这次我们只取随机分布上的一个点。根据贝叶斯公式：

$p(\theta|D)=\frac{p(D|\theta)p(\theta)}{p(D)}$

跟贝叶斯估计不同，这时候我们并不求出上式中 $\theta$ 的具体分布，我们仅仅求出使上式取值最大的 $\theta$ 的值，作为模型的估计参数。由于数据集已知并确定，所以分母p(D)确定，可以认为是常数，这时候我们只需要最大化分母 $p(D|\theta)p(\theta)$ 即可。

$\underset{\theta}{max}\ p(D|\theta)p(\theta)$

可以看出，最大后验估计（MAP）跟最大似然估计（MLE）非常类似，只是在表达式中多出了一项 $p(\theta)$ ，此项表示模型参数的先验分布。将模型参数的先验知识考虑进来时，求解的参数的值能够更为客观，模型的准确度会更高。

朴素贝叶斯模型（naive bayes）

朴素贝叶斯法是基于贝叶斯定理和特征条件独立假设的分类方法,是一种监督学习的生成式学习方法。对于给定的数据集，首先假设特征条件独立，学习输入输出的联合概率分布；然后对于给定的的输入，利用贝叶斯公式求得后验概率最大的输出y。

设输入空间 $\mathcal{X}\subseteq\mathtt{R}^n$ 为n维向量的集合，输出空间标记为集合 $\mathcal{Y}={c_1, c_2, ..., c_k}$ 。输入特征向量 $x\in\mathcal{X}$ ，输出类标记（class label） $y\in\mathcal{Y}$ 。X是定义在输入空间 $\mathcal{X}$ 的随机变量，Y是定义在输出空间 $\mathcal{Y}$ 上的随机变量。P(X,Y)是X和Y的联合概率分布。训练数据集