@[TOC] (极大似然估计VS贝叶斯推断VS朴素贝叶斯法)

最新推荐文章于 2021-10-03 15:14:32 发布

跑酷托托

最新推荐文章于 2021-10-03 15:14:32 发布

阅读量126

点赞数

文章标签：贝叶斯

本文链接：https://blog.csdn.net/qq_29257201/article/details/84112556

版权

几种估计

极大似然估计

知乎玩家霍华德对极大似然估计理解
 知乎玩家马同学对极大似然估计理解
通过事实，推断出最有可能的概率情况，就是最大似然估计。
我觉得霍华德那个例子最有助于理解极大似然估计！！！！

我们丢100次硬币，出现正面的次数为 $53$ ，出现反面的概率为 $47$ ，记，正面出现的概率为 $\mu$ ，则有 $似然函数：P(D|\mu) = \mu^53 \times (1 - \mu)^{47}$ 对 $\mu$ 求导，令其导为0，可得 $\mu = 0.53$
我们丢 $n$ 次硬币，出现正面的次数为 $n_1$ ，记，正面出现的概率为 $\mu$ ，则有 $似然函数：P(D|\mu) = \mu^{n_1} \times (1 - \mu)^{n - n_1}$ 对两边取对数， $\mu$ 求导，令其导为0，可得 $\mu = \frac{n_1}{n}$

根据上面例子，可知在不同实验下，正面出现得概率是不同得。
也验证了第一句话：通过事实，推断出最有可能的概率情况，就是最大似然估计。

根据最大似然估计，硬币正面的概率，就是正面出现的概率除以总的投掷次数，换句话说，就是正面出现的频率～这就是频率学派眼中估计概率的方式。
可是这样估计，如果我只投掷了1次，正面出现1次，按照最大似然估计我硬币正面的概率就是1，这是明显有问题的。
贝叶斯学派认为应该把这些做实验之前的经验（先验概率）加入到参数估计的过程中，于是提出了最大后验估计～

贝叶斯推断

知乎马同学对贝叶斯推断理解
对贝叶斯公式得理解: $P(A)\frac{P(B|A)}{P(B)}$ 结合马同学开车得引子理解贝叶斯公式
$A ：出现十字路口得概率$ $B ：打右转向灯得概率$ $A ∣ B ：打右转向灯得时候在十字路口得概率$ $B ∣ A ：在十字路口打右转向灯的概率$
结合贝叶斯很像大脑的认知

贝叶斯定理现在很多人在研究，就是因为不少人相信贝叶斯定理和人脑的工作机制很像，因此称为机器学习的基础。

比如，和对方聊天的时候，如果对方说出“虽然”两字，就大概可以猜到，对方会继续说“但是”。
$P (A) ：先验分布$ $P (A ∣ B) ：后验分布$ $P (B ∣ A) ， P (B) ：实验数据$
给一个吃面包的例子，记吃面包为 $P (A)$

如果是最大似然估计，那么我们不管，选择的数据是来自早餐、中餐、晚餐，拿到数据，就用构建最大似然函数，两边对数求导，球的P(A)的值，就说吃面包的概率为 $P (A)$
如果用贝叶斯推断的话，我们会分三种情况: $P (A ∣ 早餐)$ $P (A ∣ 中餐)$ $P (A ∣ 晚餐)$ 分别计算其概率。

朴素贝叶斯法

以下为《统计学习方法》第四章总结
学习模型
训练数据集 ${(x_1,y_1),(x_2,y_2),\ldots,(x_N,y_N)}，x_i：n维的特征向量,y \subset { {c_1,c_2,...,c_k}}$
我们首先假设：P(X,Y)独立同分布产生
确定先验概率分布： $c_k),k = 1,2,\ldots,K$
确定条件概率分布(实验数据) $c_k) = P(X^{(1)} = x^{(1)},X^{(2)} = x^{(2)},\ldots,X^{(n)} = x^{(n)}|Y = c_k) \quad k = 1,2,\ldots,K$ $\Downarrow$ $c_k) = \prod_{j=1}^{n}P(X^i = x^i |c_k)$
于是，可以学习到联合分布 $P (X, Y)$
朴素贝叶斯分类
确定后验概率： $c_k| X =x) = P(Y = c_k)\frac{P(X = x|Y = c_k)}{\sum_k{P(Y = c_k)P(X = x|Y=c_k)}}$
因此，处理分类问题时注意：（1）特征相互独立（2）根据训练集求出上述公式所有得值（3）根据测试数据得样本特征，去训练集所得参数中，挑相应得概率，计算 $P(c_k|X)$ ，最大概率得类，即为预测分类。（4）当测试集中出现得特征，训练集没有，此时会出现较大得误差，因此引入带参数得贝叶斯估计模型（见P51）