- 概率模型:
1.1各种概率及其定义:
①联合概率:
表示包含多个条件且所有条件同时成立的概率。
在机器学习中,这些所谓的条件其实就是数据的各种特征,
比如一个人身高=180,同时体重=180([180,180])的概率P(身高=180,体重=180)就是一种联合概率。
②边缘概率
与联合概率对应,这类仅与单个随机变量有关的概率称为边缘概率
这里,P(身高=180)或P(体重=180)就是边缘概率
③联合概率与边缘概率的转换
沿着联合概率某一方向穷举所有概率值累和,得到的相加结果就是边缘概率值
比如,P(身高=180)他就包含了所有身高为180,体重任意的人,若想获得这个概率,就需要把身高为180,体重为任意一种情况的概率累和,即P(身高=180)=∑P(体重=任意可能值,身高=180),在这里,我们就是沿着体重的方向对联合概率进行累和。
④条件概率
条件概率表示在已知某条件【例如P(身高=180)】成立的情况下,另一条件【P(体重=180)】发生的概率。不同于联合概率强调的同时满足,条件概率透露出了一种先后的意味
条件概率P(体重=180|身高=180)虽然涉及了另一特征“身高”,但是它本质还是体重的概率分布,不过是在知道了身高的前提下,体重的分布。
所以我们有∑P(X=a|Y=b)=1
⑤联合概率,边缘概率与条件概率之间的转换
--- P(X=a|Y=b) = P(X=a,Y=b)/P(Y=b)
--- P(X=a,Y=b) = P(Y=b)*P(X=a|Y=b)
--- P(Y=b) = P(X=a,Y=b)/P(X=a|Y=b)
假设我们有身高为180的概率P(身高=180),体重为180,同时身高为180的概率P(体重=180,身高=180)。
我们怎么知道“在确定身高为180,某体重的概率?”
实际上,从图中也可以看出,在确定身高为180,某体重的概率,直接用联合概率去除以边缘概率即可。
由⑤的公式我们可以推广到更一般的情况,比如:
P(ABC)
= P(C|AB)P(AB)
= P(C|AB)P(B|A)P(A)
注:
如果A,B,C独立则P(ABC)=P(A)P(B)P(C)
⑥贝叶斯公式和朴素贝叶斯
更一般的,有
贝叶斯体现了一种由结果推原因,由特征推类别的思维。实际上它可以由联合概率的不同体现形式推得
即P(A,B)= P(A|B)P(B)= P(B|A)P(A)
朴素贝叶斯是在认为各特征独立的情况下,对贝叶斯概率运算的一种简化,我们已知贝叶斯公式是
P(A|B)= P(B|A)P(A)/ P(B)
进一步将分母的边缘概率拆为沿着某一方向上联合概率的累和,再转化为条件概率,可以写成
P(A|B)=P(B|A)P(A)/ [ P(B|A)P(A) + P(B|A1)P(A1)]
这里在计算P(A)或者是在计算P(A1)时都是已知的,但是在计算P(B|A1)或 P(B|A)时都要假设B是属于某种分布(一般为n元常态分布),当n过大时,计算量激增,还有对于分子的P(x1,x2,x3|ci)的部分,正常情况下,
P(x1,x2,x3|ci)=
P(x1|ci)P(x2,x3|x1,ci) =
P (x1|ci) P(x2|x1,ci) P(x3|x2,x1,ci)
若我们通过附加的特征独立假设,最后一步就可以变为P (x1|ci) P(x2|,ci) P(x3|ci),这里就都变成了一元的常态分布,这样,我们就可以更简单的计算这里的概率值。
总结:朴素贝叶斯对于特征独立的假设可以将n元分布的条件概率计算简化为1元
此外,我们常用的逻辑回归,也无非是对贝叶斯公式的另一种假设简化所得到的结果。【注:这个假设是,不同类别点的分布具有相同的协方差矩阵(covariance matrix)】
注:若我们对贝叶斯有假设:C1与C2有相同的协方差矩阵,则Z=WX+b