条件概率和全概率
条件概率描述的是事件A在另一事件B已发生的条件下的概率,记作P(A|B):
P(A|B)=P(A,B)P(B) P ( A | B ) = P ( A , B ) P ( B )
P(A,B) 表示 A,B 事件同时发生的概率,如果 A 和 B 是相互独立的两个事件
P(A|B)=P(A,B)P(B)
P
(
A
|
B
)
=
P
(
A
,
B
)
P
(
B
)
=
P(A)∗P(B)P(B)
P
(
A
)
∗
P
(
B
)
P
(
B
)
=
P(A)
P
(
A
)
全概率公式
如果事件B1、B2、B3…Bn 构成一个完备事件组,即它们两两互不相容,其和为全集;并且P(Bi)大于0,则对任一事件A有:
P(A|B)=P(A|B1)P(B1)+P(A|B2)P(B2)+...P(A|Bn)P(Bn)
P
(
A
|
B
)
=
P
(
A
|
B
1
)
P
(
B
1
)
+
P
(
A
|
B
2
)
P
(
B
2
)
+
.
.
.
P
(
A
|
B
n
)
P
(
B
n
)
客观概率 与主观概率
概率是表述一件事发生的频率,或者说这叫作客观概率。即事件A在独立重复实验中发生的频率趋于极限p,那么这个极限就是该事件的概率。
概率是我们个人的一个主观概念,表明我们对某个事物的相信程度。叫作主观概率。以上分别是频率流派和贝叶斯流派。
贝叶斯分析
贝叶斯分析的思路对于由证据的积累来推测一个事物发生的概率具有重大作用, 它告诉我们当我们要预测一个事物, 我们需要的是首先根据已有的经验和知识推断一个先验概率, 然后在新证据不断积累的情况下调整这个概率,整个通过积累证据来得到一个事件发生概率的过程我们称为贝叶斯分析。
后验概率 = 先验概率 x 调整因子
先验概率
在贝叶斯统计中,先验概率分布,即关于某个变量 X 的概率分布,是在获得某些信息或者依据前,对 X 之不确定性所进行的猜测。这是对不确定性(而不是随机性)赋予一个量化的数值的表征,这个量化数值可以是一个参数,或者是一个潜在的变量。
先验概率仅仅依赖于主观上的经验估计,也就是事先根据已有的知识的推断。
后验概率
后验概率是关于随机事件或者不确定性断言的条件概率,是在相关证据或者背景给定并纳入考虑之后的条件概率。后验概率分布就是未知量作为随机变量的概率分布,并且是在基于实验或者调查所获得的信息上的条件分布。“后验”在这里意思是,考虑相关事件已经被检视并且能够得到一些信息。
极大似然估计
给定一堆数据,假如我们知道它是从某一种分布中随机取出来的,可是我们并不知道这个分布具体的参数,即“模型已定,参数未知”。例如,我们知道这个分布是正态分布,但是不知道均值和方差;或者是二项分布,但是不知道均值。 极大似然估计(MLE,Maximum Likelihood Estimation)就可以用来估计模型的参数。MLE的目标是找出一组参数,使得模型产生出观测数据的概率最大:
公式实在太难写了。。
下面是一个极大似然估计的例子
朴素贝叶斯分类器思路与方法
朴素贝叶斯的原理
贝叶斯极大似然参数估计
贝叶斯估计
用极大似然估计可能会出现所要估计的概率值为0的情况。这时会影响到后验概率的计算结果,使分类产生误差。解决这个用贝叶斯估计。
即在随机变量各个取值上的频数赋予一个正数λ>0
贝叶斯应用
后续更新。。。