数理统计基本概念
先解释一些基本概念:举例说明,如果你在山洞,觉得山洞中有熊出现的事件为,然后听到山洞中传出来一阵熊吼的事件为。那么一开始你觉得山洞中有熊的事件的概率为,听到熊吼之后的认为山洞中有熊的概率为。很明显。这里就是所谓的先验概率;就是后验概率。
- 先验概率:为先验概率,是根据以往数据的分析或者经验的到的概率;
- 后验概率:为后验概率,是根据本次实验的信息从而重新修正的概率。
- 条件概率:设,是两个事件,且,称,为事件发生的情况下事件发生的条件概率
- 全概率公式:设实验的样本空间为,是对的一个划分,且,则;再用条件概率展开,及就是全概率公式:
- 贝叶斯公式:设实验的样本空间为,是对的一个划分,且,则,这个公式就是贝叶斯公式。这个公式可以由条件概率公式推导出。这里给大家推导哈,方便理解。,这个公式是条件概率来的。然后在将和用条件概率和全概率公式展开就有,;。这样贝叶斯公式就新鲜出炉了。
生成模型
上述解释了概率论与数理统计的一些基本概念,下来就阐述生成模型。生成模型与判别模型的区别在于生成模型会对来自各个种类的样本分布进行估计。在获得样本分布后,计算出新样本属于各类的后验概率,进而给出样本最可能的属类。以二分类为例子。假设与是二分类的类标,和是这两个类的先验概率,即就有。进一步假设类概率密度函数和也已经知道(可以通过有标记数据计算出来),通常情况下,类的先验概率以及类条件概率并不能直接得到,必须通过给定的训练数据用统计学方法估计得到,这样就可以用贝叶斯公式计算后验概率。机器学习无非就是给你一大堆的数据,然你判别这个是属于那个类别,放在贝叶斯公式里边就是求这个。A为你给定的一系列数据。然后判别B是那个类别。
直观上,如果给点给样本属于某个类别的后验概率大于其他类别,那么就有理由相信该样本的类别就是前者,这种直观上的理解与贝叶斯最错误准则不谋而合。最小错误贝叶斯决策规则可以叙述为:
那么就属于类别;
那么就属于类别;