贝叶斯1

最早接触贝叶斯是考研的时候,第一感觉并没有那么难。然而研一又接触到它时,又是什么先验概率和后验概率。彻底被它懵逼了。。。现在想想,为自己当时的理解能力感到捉急,估计是掉到字眼里去了。机器学习,5分看,5分猜。扣字的去理解,准没戏。每个人猜的又有好有坏,理解的有深有浅,看个人造化。

总述:这是一个根据现象猜本质的过程。即看到一个人的身高猜男女,看到一条鱼的轻重猜品种。

反映到数学的表达式就是如下:

 (1)

P(C)就是传说中的先验概率,比如南邮的一个班上男多女少,P()>P()

P(X|C),就是P(身高/)就是是个男生那么他的身高满足一个什么样的分布,当然它有很好听的名字,叫做条件概率,也叫做“似然(兄弟们记不记得极大似然估计?)。所以通过例子可以大概知道了,我这儿的C就是类别(男女),而X就是现象(身高)。

所以,回头看之前那句话,贝叶斯分布是一个根据现象猜本质的过程,我们的例子也是一个根据身高猜男女的过程。等等?根据身高猜性别,不就是P(C|X)嘛?

下面说P(C|X),仔细想想,在这个例子中就是P(性别/身高),举个例子,黑夜中,你遇到一个人,除了身高,你对他(她)一无所知,根据伟大的贝叶斯,你算出了P(性别=/身高=170)>p(性别=/身高=170),那你猜这人是男是女?当然猜是男的。而这个P(C|X)就是伟大的后验概率

上面式子中的所有元素都提到了,除了P(X),而P(X)在贝叶斯中显得并不是那么的重要,它叫做用于归一化的证据因子,对给定样本X,证据因子P(X)与类标记无关。所以这里就可以华丽的无视他的存在了。

那我们的根据现象猜本质的过程,其实也可以叫做根据先验概率和条件概率求后验概率的过程,是的,没错!

 

可是,如何才能很好的求出这个后验概率呢?主要有两种策略:

其一,给定x,通过直接建模P(C|X)来预测c,美曰判别式模型”(discriminative models)

其二,先对联合概率分布P(X,C)建模,然后再由此获得P(C|X),美曰生成式模型”(generative models)

大家熟知的决策树啦,BP神经网络啦,SVM等等,都是属于判别式模型,而贝叶斯,因为有P(X,C)的存在,所以就是生成式模型。

 

要求P(C|X)必先求得P(X|C),即一个类别中的现象分布,男生中的身高分布。通过什么来求得分布?通过样本训练来求得分布。什么东西实质上在改变分布?参数的大小在改变着分布。因此,我们的概率模型训练的过程实际上就是参数估计(parameter estimation)的过程。说句题外话:

两个学派分别提供了两种思路:

一群人认为参数虽然无知,但却是客观存在的固定值,因此可以通过优化似然函数等准则来确定参数值,他们叫做频率主义学派(Frequentist)

另一群人认为参数是未观察到的随机变量,其本身也有分布,因此,可假设参数服从一个先验分布,然后基于观测到的数据来计算参数的后验分布,他们叫做贝叶斯学派(Bayesian)

虽然今天主要介绍的是贝叶斯,可是我们求参数的时候并没有沿用贝叶斯学派的做法,而是源自频率派的极大似然估计,所以明白为什么前面提到的P(X|C)也叫作似然概率了吗?贝叶斯的这种先验后验分布的思想我们拿来判断物品的类别就好了,小小的参数估计,还是简单点,认为他就是一个固定值吧。

下面开始介绍极大似然估计(Maximum Likelihood EstimationMLE),即为根据诸多该类训练样本的现象分布,来近似估计这个类别的现象分布,不懂是嘛?就是说我知道10个男生的身高,我根据这10个男生的身高去估计男生这个类别它的身高分布,而这个身高分布肯定是由各种参数来确定的。比如,如果它是正态分布,那么它的均值和方差就是参数。就是我们需要根据10个男生的身高去估计的东西。


我们是可以根据这样的式子去估计参数的,c是一个类(男生),Dc是表示c类的训练集(10个男生的身高),x就是其中的一个男生,就是乱七八糟的参数。

我们需要求最大化上面式子的的值,也就是argmax,当然,连乘会造成下溢,所以通常使用对数似然

 (3)

此时参数的极大似然估计就是 (4)

比如,我们会根据10个男生的分布发现,概率密度函数P(X|C)满足的是正态分布,那么它的均值和方差的极大似然估计就是

 (5)

 (6)

很显然,此处的均值和方差是非常符合逻辑的,如果让你去蒙肯定也是这么蒙的,但是这个值并不是蒙的,而是算出来的,就是先假设男生的身高分布符合正态分布,写出正态分布的公式,再将其带入公式(4),求这个的最大值,分别对这个式子对均值和方差这两个参数去求偏导,另偏导为零,就能得到上述的解了,纯数学计算,不写了,懒。

注意,我上面是先假设了男生的身高符合正态分布,然后巴拉巴拉的才去进行估计参数,所以,极大似然估计一定是由两个步骤构成,1,假设概率分布形式(正态分布等)2,参数估计。所以上面说了那么多其实都只是说的是参数估计。而很多时候我们假设的概率分布也是非常的关键的,它的选择必须要符合真实的数据分布,所以它的选择并不是一味的全都是正态分布,要根据具体的应用背景来。

(by the way,为什么不能像word一样的搞个公式编辑器?本来我智商就不够用,公式编辑搞的那么复杂的谁会啊!!)








评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值