前言
最近发现一本关于贝叶斯的书籍,很是适合作为贝叶斯的入门书籍来看,在这里推荐给大家 <<统计学管我什么事:生活中的极简统计学>>
这本书以浅显的小例子来解释贝叶斯推理,只需要会做四则运算,便可以掌握贝叶斯统计学.以下作为读书记录
贝叶斯统计的优势在于,“在数据少的情况下也可以进行推测,数据越多,推测结果越准确”,以及"对所获的信息可以作数瞬时反应,自动升级推测"的学习功能.
信息增加导致概率变化
下面通过一个例子来说明"贝叶斯推理"的基本方法
通过贝叶斯推理来辨别"买东西的人"和"随便逛逛的人"
商店售货员最关心的问题莫过于"这位顾客究竟是来买东西的,还是随便逛逛而已".
第一步:通过经验设定"先验概率"
推算第一步:将两种顾客(来买东西的顾客, 随便逛逛的顾客)的比例进行数值分配.
这句话的意思是:假设前面的这位顾客一定属于两种中的一种,以此为前提,该顾客为第一种或第二种的可能性分别为多少?将这个可能性用数值表示出来.
在贝叶斯统计学中,这种 "某种类别的概率(比例)"
有一个专门的名词,叫先验概率
. "事前"的含义是:在获得某项信息之前.此处的"信息"是指:附加状况
,比如顾客忽然间过来询问.通过过来询问这一信息,可以对顾客类别的推算进行修改
,而先验概率
是指,在"过来询问"或"不过来询问"的事情发生之前进行的概率判断.
通常先验概率
可已通过经验来判断.
根据自己的经验,每5位顾客中就有1位是"来买东西的",也就是说说这一部分顾客占全体的20%(0.2), 那么剩下"随便逛逛"部分的比例变为 80%(0.8).这两个数字,便是两类顾客的"先验概率"
;
"面积"的概念在贝叶斯概念的计算中,起着重要的作用
该图可以理解为:将整体分为两种不同的情况,且将各部分概率相加,总和为1,这种情况被称为 “标准化条件”
第二步:设置发生"向店员询问"事件的条件概率
在这一步,我们需要做的是:为"来买东西的人"和"随便逛逛的人"这两类顾客分别设定"向店员询问"的概率.
此处的"各分类的行动概率",必须是基于一定经验, 实例, 实验的数值.
图1-2 的数字,表示**“某一特定类别采取各种行动的概率”,在高等数学中被称为"条件概率".
即"即在原因明确的情况下,某一类别采取各项行动的结果概率"**
将两类顾客,进一步按照"询问"和"不询问"的条件来分类,那么前面的两大类又可以细分为四小类,分别是:“来买东西的人询问店员”, “随便逛逛的人询问店员”, “来买东西的人不询问店员”, “随便逛逛的人不询问店员”.如下表所示:
各个区域所表示的概率与每个长方形的面积相等
下面我们来确认一下,这四个"可能世界"的概率之和:
0.2 x 0.9 = 0.18 0.2 x 0.1 = 0.02
0.8 x 0.3 = 0.24 0.8 x 0.7 = 0.56
(0.18 + 0.02) + (0.24 + 0.56 ) = 1
第三步:通过观察到的行为,排除"不可能的情况"
下面,让我们进一步推测
作为一名店员,你现在面临的情况是:顾客上前来打招呼.这也意味着,你观察到了顾客的某种行为. 这为"可能世界" 又增添了一条信息
这条信息的内容是:"不询问店员"的肯能性消失了.
为此还是需要保持之前的比例关系通过恢复标准化条件(使所有情况概率相加之和为1)
第四步:寻求"来买东西的人"的"贝叶斯逆概率"
恢复标准化条件,从而使概率发生改变:
(左长方形的面积):(右长方形的面积) = 0.18 : 0.24 = 3 : 4
改变为
(左长方形的面积):(右长方形的面积) = 3 : 4 = 3/7 : 4/7
从上表我们可以看出,上前询问的顾客为购买者的概率,可以推定为 3/7 ,这个概率,被称为 “贝叶斯逆概率"或"后验概率”.
"上前询问"的顾客可分为 "来买东西的人"和"随便逛逛的人"两种类别,从中随机选择一种.从"询问" 这一行动的结果追溯到 “类别” 这一原因.[结果 ->原因]这一过程,就是"逆概率"这一概念中"逆"的含义.
贝叶斯推理过程的总结
通过求后验概率,我们能够理解到什么呢?其实,只要抽出图表的开头, 中间和结尾部分,并填入数值,结果就很明确了.
这个图表可以理解为,在没有观察到任何行为时,面前的顾客是"来买东西的人"的概率为 0.2(先验概率),但是观察到 “上前询问"这一行为之后,数值便更新为约 0.43(后验概率).
也就是说,虽然并不能断定这位顾客是"来买东西的人”,但这一结果的可能性提高到了以前的两倍,这便是**“贝叶斯更新”**.
贝叶斯推理可以总结为:通过观察行动(信息),将先验概率通过贝叶斯更新,转换为后验概率
小结