贝叶斯思维
贝叶斯推断与传统的统计推断不同,贝叶斯推断保留不确定性,在贝叶斯派的世界观中,概率是我们对某一事件将要发生相信程度.
在传统的统计推断中频率派对概率的有不同的解释,频率派认为概率是事件在一段时间内发生的频率.比如火车事故的概率是指长期来看,发生事故的频率值.有些时候这样的解释是合乎逻辑的.但是对于那些没有长期频率的事件来说,就不太合乎逻辑.比如:选举,某某某候选人的获选概率,面对这样的问题,就不能用频率来表示了,因为选举本身之发生一次.
同样对于选举问题,贝叶斯派的概率就可以直观的表示.贝叶斯派认为概率是对事件发生的可能性的描述.概率为0表示该事件一定不会发生,概率为1表示该事件一定会发生.概率介于0~1之间表示该事件发生的权重.候选人获选的概率即是你对候选人的的信心有多少.
我们可以对任意事件赋予不同的概率值,所以这就导致了不同的人对同一事件发生的信心也不同,这并不说明谁对谁错,只是我们每个对于该事件所掌握的信息也不同.
举一个抛硬币的例子:有两个人抛硬币,猜正反.对于两个人来说,相信正反面的概率都是0.5,但是假如有一个人偶然看到了抛硬币的结果是正面.那么他一定猜结果是正面,他对于结果是正面朝上这件事的概率赋值一定是1,但是另一个人没有获得这一个额外的信息,所以对他来说他认为正反面的概率都为0.5.
通过上面这个例子说明,通过获得额外的信息虽然不会改变事件的结果,但是改变了我人对事件发生赋予的概率值.当我们只了解到部分真相的时候,我们对事件会有一个起初的认识,但是我们可以通过不断的收集更多的信息,来更新我们对事件的认识.这也是贝叶斯推断的核心思想:随着证据的更新而更新信念.
在贝叶斯推断中,把一个将要发生的事件
A
A
A的概率记为
P
(
A
)
P(A)
P(A),也称为先验概率.在得到新的信息(证据)
X
X
X后,
A
A
A事件发生的概率记为
P
(
A
∣
X
)
P(A|X)
P(A∣X),也称为后验概率.
统计推断VS贝叶斯推断:
用
N
N
N来表示我们拥有的信息(证据)的数量,当
N
N
N的值趋于无穷大的时候,贝叶斯推断的结果和统计推断的结果通常是一致的.当
N
N
N的值较小时候,统计推断的结果变得不稳定,贝叶斯推断通过引入先验概率返回结果概率,保留了不确定性,不确定性正是来自于小数据集本身.
还有一种观点认为当
N
N
N较大时,两种推断是无差别的,因为结果类似,而且频率的计算比较简单,所但数据量较大时比较倾向于使用统计推断.
#联合概率
联合概率是指两个事件同时发生的概率,例如:事件
A
A
A和事件
B
B
B同时发生的概率记为:
P
(
A
a
n
d
B
)
=
P
(
A
)
P
(
B
)
P(Aand B)= P(A)P(B)
P(AandB)=P(A)P(B) (仅在事件
A
A
A和
B
B
B都是独立事件的时候才成立,即:
A
A
A事件的结果并不影响事件
B
B
B发生的概率,
P
(
B
)
=
P
(
B
∣
A
)
P(B) = P(B|A)
P(B)=P(B∣A) )
两个独立事件
例如,我抛两枚硬币,事件
A
A
A:表示第一枚硬币正面朝上,事件
B
B
B表示第二枚硬币正面朝上.这两个事件相互独立互不影响.
P
(
A
)
=
P
(
B
)
=
0.5
P(A)=P(B)=0.5
P(A)=P(B)=0.5,两枚硬币都正面朝上的概率就是
P
(
A
和
B
)
=
P
(
A
)
P
(
B
)
=
0.25
P(A和B) = P(A)P(B)=0.25
P(A和B)=P(A)P(B)=0.25
非独立事件
事件
A
A
A:今天会下雨,事件
B
B
B表示明天会下雨.假设:如果今天下雨,则明天有可能下雨,
事件
A
A
A会影响事件
B
B
B,两个事件为非独立事件,则连续两天都下雨的概率是?
P
(
A
和
B
)
=
P
(
A
)
P
(
B
∣
A
)
P(A 和 B) = P(A)P(B|A)
P(A和B)=P(A)P(B∣A)
#贝叶斯定理
联合概率乘积是可交换的:
P
(
A
a
n
d
B
)
=
P
(
B
a
n
d
A
)
P(A and B) = P(B and A)
P(AandB)=P(BandA)对于任何事件都成立.
联合概率表达式:
P
(
A
a
n
d
B
)
=
P
(
A
)
P
(
B
∣
A
)
P(A and B) = P(A)P(B|A)
P(AandB)=P(A)P(B∣A)
交换AB位置 :
P
(
B
a
n
d
A
)
=
P
(
B
)
P
(
A
∣
B
)
P(B and A) = P(B)P(A|B)
P(BandA)=P(B)P(A∣B)
根据交换率 :
P
(
A
)
P
(
B
∣
A
)
=
P
(
B
)
P
(
A
∣
B
)
P(A)P(B|A) = P(B)P(A|B)
P(A)P(B∣A)=P(B)P(A∣B)
贝叶斯定理 :
P
(
A
∣
B
)
=
P
(
A
)
P
(
B
∣
A
)
P
(
B
)
P(A|B) = \dfrac{P(A)P(B|A)}{P(B)}
P(A∣B)=P(B)P(A)P(B∣A)
P
(
A
)
P(A)
P(A): 先验概率,即在得到新数据前的某一假设概率.
P
(
A
∣
B
)
P(A|B)
P(A∣B): 后验概率,即在得到新数据B后计算的假设的概率.
P
(
B
∣
A
)
P(B|A)
P(B∣A): 似然度,即在当前假设A下得到这一数据的概率.
P
(
B
)
P(B)
P(B) : 标准化常量,即是在任何假设下得到这一数据的概率.
下面通过两个具体的问题来感受下
红黑球问题:假设有两个不透明的盒子,
B
1
B_{1}
B1和
B
2
B_{2}
B2,
B
1
B_{1}
B1中有三个红球和一个黑球,
B
2
B_{2}
B2中有两个红球和两个黑球.假设在蒙着眼睛的情况下随机的从任意一个盒子中摸出一个红球,问题是这个红球来自
B
1
B_{1}
B1的概率是?即:
P
(
B
1
∣
红
球
)
=
?
P(B_{1}|红球)=?
P(B1∣红球)=?
我们通过贝叶斯定理来计算这个问题:假设,
B
1
B_{1}
B1表示摸到的球来自盒子1的概率,
R
R
R表示摸到的球是红球的概率.根据贝叶斯定理可以算出结果:
P
(
B
1
∣
R
)
=
P
(
B
1
)
P
(
R
∣
B
1
)
P
(
R
)
P(B_{1}|R) = \dfrac{P(B_{1})P(R|B_{1})}{P(R)}
P(B1∣R)=P(R)P(B1)P(R∣B1)
P
(
B
1
)
P(B_{1})
P(B1): 从两个盒子中随机选择,选中
B
1
B_{1}
B1的概率.
P
(
B
1
)
P(B_{1})
P(B1)=1/2
P
(
R
∣
B
1
)
P(R|B_{1})
P(R∣B1): 从
B
1
B_{1}
B1中得到红球的概率.
P
(
R
∣
B
1
)
P(R|B_{1})
P(R∣B1)=3/4
P
(
R
)
P(R)
P(R) : 从任意盒子中得到红球的概率.
P
(
R
)
P(R)
P(R)=(1/2)(3/4)+(1/2)(1/2)=5/8
P
(
B
1
∣
R
)
=
1
/
2
∗
3
/
4
5
/
8
=
3
5
P(B_{1}|R) = \dfrac{1/2*3/4}{5/8}=\dfrac{3}{5}
P(B1∣R)=5/81/2∗3/4=53
图书管理员还是农民
故事是关于一个叫Stave的人,他是一个害羞的人,他乐于助人,但是他对其他人并不太关注.他喜欢所有的事情都有一个合理的顺序.他对工作细心.所以你认为Stave是一个图书管理员还是农民?补充一个关于农民和图书管理员的事实:在男性人口中,农民的人数是图书管理员的20倍.从统计学来看Stave很有可能是一个农民.
针对这个问题,先假设Stave是图书管理员的事件为
A
A
A, 在没有任何关于Stave的信息时,先验概率
P
(
A
)
P(A)
P(A)=1/21.假设我们从Stave的邻居那里得到了关于他的信息
X
X
X,现在就可以同信息
X
X
X来从新推断Stave是图书管理员的概率,
P
(
A
∣
X
)
P(A|X)
P(A∣X).
根据贝叶斯定理:
P
(
A
∣
X
)
=
P
(
A
)
P
(
X
∣
A
)
P
(
X
)
P(A|X) = \dfrac{P(A)P(X|A)}{P(X)}
P(A∣X)=P(X)P(A)P(X∣A)
P
(
X
∣
A
)
P(X|A)
P(X∣A):表示在Stave是图书管理员的情况下,邻居们给出某种描述信息的概率,即Stave 是图书管理员,他的邻居将他描述为图书管理员的概率.
P
(
X
)
P(X)
P(X): 可解释为所有人对Stave的描述中与他邻居对其描述一致的概率.
$P(X) = P(X and A) + P(X and ~A) $
$ = P(X|A)P(A) + P(X|~A)P(~A)$
~
A
~A
~A: 表示Stave是一个农民的事件.
P
(
~
A
)
P(~A)
P(~A):是Stave是一个农民的概率.
P
(
~
A
)
=
1
−
P
(
A
)
=
20
/
21
P(~A) = 1 - P(A)=20/21
P(~A)=1−P(A)=20/21
P
(
X
∣
~
A
)
P(X|~A)
P(X∣~A): 表示Stave是一个农民的情况下,Stave的邻居给出某种描述的概率.