极大似然估计 for Mechine Learing

最新推荐文章于 2022-08-10 21:38:06 发布

陈振斌

最新推荐文章于 2022-08-10 21:38:06 发布

阅读量305

点赞数 2

分类专栏：机器学习文章标签：概率论机器学习

本文链接：https://blog.csdn.net/weixin_37913277/article/details/117119125

版权

伯努利分布极大似然估计贝叶斯估计概率随机变量

关键词由CSDN通过智能技术生成

机器学习专栏收录该内容

9 篇文章 1 订阅

订阅专栏

伯努利分布

伯努利实验

如果随机变量X只取0和1两个值，并且相应的概率为：
$P (X = 1) = p, P (X = 0) = 1 - p, 0 < p < 1$

说白了就是实验结果只有两个结果，并且这两个结果还是对立的随机试验，就是伯努利实验。比如，抛硬币出现正面还是反面？今天下雨还是不下雨？

满足上述条件，则称随机变量X服从参数为p的伯努利分布，若令q=1一p，则X的概率函数可写为：

$\begin{cases} p^xq^{1-x} & x =0,1\\ 0 & x\not ={0,1} \\ \end{cases}$

如果X服从参数为p的伯努利分布，则很容易得到以下的性质：
$E (X) = 1 * p + 0 * (1 - p) = p$
$E(X^2) = 1^2*p = 0^2*p = p$
$Var(X)=E(X^2)-[E(X)]^2 =pq$

一般地，n重伯努利实验服从二项分布，记作： $ξ B (n, p)$ 。
其中，事件A发生k次的概率是：
$P(ξ=k)=C_n^k*p^k*q^{1-k}$
期望：
$E (ξ) = n p$
方差：
$D (ξ) = n p q$

极大似然估计MLE VS 贝叶斯估计MAP

极大似然估计

极大似然估计的主要主要思想：

当前出现的所有数据 $D={X_1,X_2,\cdots,X_n}$ 被认为是出现概率是最大的，因为已经发生；
当前样本出现的概率 $P$ 等于：
$\prod P(x_i|\theta)$
然后就要使 $P$ 最大化，所以：
${argmax}_\theta \prod P(x_i|\theta)$
最终得到的 $\theta$ 是个定值.

例题1

假设随机事件A为伯努利实验，以抛硬币为例子吧，那么实验A有两个结果：正面和反面

假设硬币是正面的概率为 $\theta$ ，则硬币是反面的概率是 $1-\theta$

又知道通过10次实验，有6次都是正面，4次是反面，那么当前样本发生的概率函数是：
$L(X|\theta)={\theta}^6(1-\theta)^4$

然后我们认为当前样本出现概率是最大的，所以求出最大化的函数值对应的 $\theta$ 就是我们需要的啦~

然后，为了计算极值，我们需要两边取对数方便计算：
$logL(X|\theta) = 6log\theta + 4log(1-\theta)$

接下来两边求导，并令其等于0，找到极值点：
$\frac{\partial L(X|\theta)}{\partial x}=0$

解出 $\theta=0.6$ ，所以当硬币正面概率为0.6的时候，出现该样本的概率是最大的。

贝叶斯估计

和极大似然估计不同的是这里求得的 $\theta$ 是一个概率分布，并不是固定的值；
从贝叶斯公式入手：
$P(\theta|D) = \frac{P(D|\theta)P(\theta)}{P(D)}$
其中， $P(\theta)$ 是先验概率，而 $P (D)$ 对于样本来说是一样的，根据极大似然估计的思路，就得出了：
$P(\theta|D) ={argmax}_\theta P(D|\theta)P(\theta)$

这就是贝叶斯估计

例题2

初始条件和上面例题1一样，唯一不同的是，这里的 $\theta$ 我们还知道他的先验概率分布 $P(\theta)$ ,假设 $\theta$ 的分布满足 $\mu=0.5,\sigma=0.1$ 的正态分布（硬币都是0.5的概率为正面嘛），那么：
$P(\theta) = {\frac{1}{\sigma\sqrt{2\pi}}}e^-{\frac{(\theta-\mu)^2}{2\sigma^2}}={\frac{1}{10\sqrt{2\pi}}}e^-{50(\theta-0.5)^2}$

然后根据上面我们总结的公式：

$P(\theta|D) ={argmax}_\theta P(D|\theta)P(\theta) = {\theta}^6(1-\theta)^4*{\frac{1}{10\sqrt{2\pi}}}e^-{50(\theta-0.5)^2}$

接下来还是求对数：

$6ln\theta + 4ln(1-\theta) + ln\frac{10}{\sqrt{2\pi}}-50(\theta -0.5)$

然后求导，令其等于0，阿，因为太复杂了，就不算了，最后得到数值，是0.5（分布提供的）和0.6（样本观测）所得，而不会完全依赖于样本。

极大似然估计和经验风险最小化

假设我们已经得到了一组观测序列 $D=\{(x_1,y_1),(x_2,y_2),\dotsc,(x_n,y_n)\}$ ,那你那么当前观测序列出现的概率是：
$P(y_1|x_1)P(y_2|x_2)\dotsc P(y_n|x_n) =\prod P(y_i|x_i)$

同样两边取对数：
$\sum_{i=1}^{n}logP(y_i|x_i)$

而我们要求其最大值，就等于加负号取最小值：

$-\sum_{i=1}^{n}logP(y_i|x_i)$

然后为了防止样本数量对L产生的影响，再除以样本数进行平均：

$-\frac{1}{n} \sum_{i=1}^{n}logP(y_i|x_i)$

然后，我们看看这个 $P(y_i|x_i)$ ，不就是当我输入为 $x_i$ 的时候，正确预测出输出 $y_i$ 的概率吗？那么我们是否可以理解成Cost函数？

那么 $logP(y_i|x_i)$ 不就是对数损失函数吗？所以，上面待最小化的式子，其实就是经验风险，这个极大似然过程不就是经验风险最小化吗？

$-\frac{1}{n} \sum_{i=1}^{n}Cost(Y,P(y_i|x_i))$

思路参考B站：@陆小亮

陈振斌

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
极大似然估计 for Mechine Learing

伯努利分布伯努利实验如果随机变量X只取0和1两个值，并且相应的概率为：P(X=1)=p,P(X=0)=1−p,0<p<1 P(X=1)=p,P(X=0)=1-p,0<p<1P(X=1)=p,P(X=0)=1−p,0<p<1说白了就是实验结果只有两个结果，并且这两个结果还是对立的随机试验，就是伯努利实验。比如，抛硬币出现正面还是反面？今天下雨还是不下雨？满足上述条件，则称随机变量X服从参数为p的伯努利分布，若令q=1一p，则X的概率函数可写为：f(x,p)={p
复制链接

扫一扫

专栏目录