机器学习入门：第六章贝叶斯统计前验概率(3)

最新推荐文章于 2022-11-04 20:04:30 发布

go2coding

最新推荐文章于 2022-11-04 20:04:30 发布

阅读量214

点赞数

分类专栏：机器学习入门文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_40425640/article/details/124188133

版权

机器学习入门专栏收录该内容

29 篇文章 18 订阅

订阅专栏

门派之争

有个猎人带着你和你同学到森林里去打猎，当然猎人的枪法是你们三个人中最好的，突然枪响了一声，你回头一看兔子死了，你觉得这一枪是谁开的可能性更大，在看另一种情况，你听到枪响了三声（假设是同一个人开的），回头一看没有打中，兔子给跑了，还是让你猜，这三枪是谁开的。

来考虑下第一个问题，一枪就能够命中兔子，猎人的枪法比同学的枪法好，同学很可能一枪是命中不了目标的。第一个问题猜是猎人，同样的思路，三枪都没有命中目标，更可能是同学的行为。这里的主要思想是：猜测的依据是使观察的想象最大化，这句话比较拗口。
看一个用概率表示的例子：
假若一个盒子里有许多白球和红球,而且已知它们的数目之比是3:1，但不知是白球多还是红球多.设随机地在盒子中取一球为白球的概率是p。如果有放回地从盒子里取3个球,那么取到白球的数目X服从二项分布。

$P(X=k)=C_3^kp^k(1-p)^{3-k}$

用表格来表示如下的概率：

X	0	1	2	3
p=1/4时P{X=k}	27/64	27/64	9/64	1/64
p=3/4时P{X=k}	1/64	9/64	27/64	27/64

如果样本中白球数为0,则应估计p=1/4，而不估计p=3/4。因为具有X=0的样本来自p=1/4的总体的可能性比来自p=3/4的总体的可能性要大。一般当X=0,1时，应估计p=1/4;而当X=2,3时，应估计p=3/4。
取值尽量的让样本，最大可能度的发生，这就是所谓的极大似然法则。
极大似然估计，只是一种概率论在统计学的应用，它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布，但是其中具体的参数不清楚，参数估计就是通过若干次试验，观察其结果，利用结果推出参数的大概值。极大似然估计是建立在这样的思想上：已知某个参数能使这个样本出现的概率最大，我们当然不会再去选择其他小概率的样本，所以干脆就把这个参数作为估计的真实值。
首先，在求未知参数的时候，我们必须知道，样本服从那些分布，这也是很多人大力的研究概率分布的原因了。

经典的概率分布
二项式分布：

$b(i;n,p)=\begin{pmatrix} n\\i\end{pmatrix}p^i(1-p)^{n-i}$

泊松分布：

$P(X=i)=e^{-\lambda}/i!$

正态分布：

$f(X=i)={\sqrt{2\pi\sigma}}^{-1}e^{-{(x-\mu)}^2/2{\sigma}^2},-\infty<x<+\infty$

指数分布：

$f(x)=\begin{cases} \lambda e^{\lambda x}，当x>0 \\ 0，当x<0\\ \end{cases}$

有了这些分布，建立起了样本和概率之间的关系，就可以根据观察到的样本来估计参数。
还有另另外一种方法，求解概率值，就是贝叶斯估计。
对于极大似然估计来说，在我们心目中，未知参数p就是简单地是一个未知数，在抽取样本之前，我们对p没有任何了解，所有的信息全部来自样本。
贝叶斯学派则不然，他的出发点是：在进行抽样之前，我们已经对p有一定的知识，叫做先验知识，比如在计算硬币的正反面之前，我们先前的知识就告诉我们正常情况下正反面的概率都一样1/2。这里“先验”的意思并非先验论，而只是表示这种知识是“在试验之先”就有了的，也有人把它叫做验前知识。
贝叶斯学派进一步要求：**这种先验知识必须用p的某种概率分布表达出来，这概率分布就是p的“先验分布”或者“验前分布”。**这个分布总结了我们试验之前对未知参数p的知识。而先验概率是一种已知的模型，他在我们试验之前就已经证明，先验概率的引入在某种程度上可以降低抽样时的误差干扰。
贝叶斯也有一些毛病，比如贝叶斯统计的一个基本要求是：你必须设法去定义这样一个h§，甚至出于你自己的主观认识也可以，这要成为问题中一个必备的要素。正是在这一点上，贝叶斯统计遭到不少的反对和批评，而一个初接触这个问题的人，也容易这样想：“这怎么行？我没有根据怎么能凭空想象去定出一个先验密度h§”。