1.条件概率
条件概率反应的是在给定A的条件下B的概率
由条件概率可得
由此还可以推出全概率公式,在全概率公式里,P(A)是所有P(AB_i)的求和,对应概率图表中A的偏概率
2.贝叶斯公式
贝叶斯公式由条件概率推出,我们假设要做一个分类任务,给出数据A求它的标签B,这就是公式左边。直接求解比较困难,所以贝叶斯公式可以把它转化成P(A|B),即在标签B条件下是数据A的概率。
贝叶斯定理形式为,它让我们能够通过后验概率p(w|D),在观测到D之后估计w的不确定性。
3. 先验概率 后验概率
现在来举个例子说明,我们考虑这样一个文本分类的问题,x是文章的向量,y是文章的类别,在给出训练集的情况下,显然P(y|x)是我们要求的,这个不能直接求得。但是p(x),p(y),p(x|y)都是可以在训练集上统计出的。我们写出这个问题的贝叶斯公式,其中
P(y)是先验概率,先验概率顾名思义,是人们的先天经验,是在没有给出数据集前对结果的估计
P(y|x)是后验概率,也就是我们要求的概率,它的含义是当我们给出数据之后发现先验假设存在偏差,是我们观测到x之后的概率。
关于后验概率,也许上面的例子还不太直观,我们考虑有两个盒子,一个红色的,一个蓝色的,红盒子中有2个苹果和6个橘子,蓝盒子中有3个苹果和1个橘子。现在假定我们随机选择一个盒子,从这个盒子中我们随机选择一个水果,观察一下选择了哪种水果,然后放回盒子中。假设我们重复这个过程很多次。假设我们在40%的时间中选择红盒子,在60%的时间中选择蓝盒子,并且我们选择盒子中的水果时是等可能选择的。当我们拿了一个水果后,要判断它是从哪个盒子里拿的
在这个例子中,我们要求的是P(b|f),即在给定fruit下预测是从哪个盒子里拿的。先验概率就是P(b),因为我们知道选蓝盒子的概率是0.6,所以在没有选水果前我们就会预先猜测更有可能从蓝盒子里取。
但是现在我拿了一个水果发现是橘子,选蓝盒子就不是0.6了,因为我们知道红盒子里橘子更多,所以感觉应该是红盒子更有可能,因为蓝盒子只有1个橘子。先验概率因为我们的观测而产生了变化,这个就是后验概率。现在我们再算一下红蓝盒子的概率:
4.似然函数
L(θ|x)=f(x|θ)
似然函数的意思是当给定一个样本x后,我们去猜想它在分布的不同参数下出现的概率。统计学认为数据是在一个给定的分布下生成的,而我们要找的就是分布的参数。f(x|θ)表示的就是在给定参数theta的情况下,x出现的可能性多大。L(θ|x)表示的是在给定样本x的时候,哪个参数theta使得x出现的可能性多大。
在上面的例子中,似然函数就是P(x|y),我们求最大似然,就是求在给定标签y时,看生成数据x的可能,然后找可能最大的那个y,注意似然函数并不是归一化的。
5.概率分布与概率密度
当我们研究随机变量的时候,我们关注的将不仅是取哪些值,还要看它取到各种值的概率。在上面的例子中,我们能取到的值都是离散的,如果我们要考虑连续的值呢,例如女朋友约我10点见面,我要算什么时候去最能讨女友欢心,时间是一个连续的值,这时就要引入概率分布和概率密度。
首先,先有概率分布后有概率密度,可以看到,概率密度是概率分布的导数。对于连续型随机变量,我们考虑的更像是一根铁棍各处的密度,密度大的地方当我们积分的时候概率就大。
参考
https://blog.csdn.net/yangang908/article/details/62215209 先验后验
https://www.jianshu.com/p/b570b1ba92bb 概率分布 概率密度
https://www.zhihu.com/question/54082000 似然函数