为什么要用贝叶斯

这个博客纯粹是为了记录学习统计机器学习的一些心得,以此来监督自己

首先,为什么要用贝叶斯呢,当然是为了解决实际问题啦,那么待解决的问题是什么,我根据一些资料做了以下的陈述:

当我们获得一个数据集合,假设类别数目是 2 的数据集合,而且 类别1 和 类别2 的比例已经是知道的,那么我就知道当我拿到一个数据时,他是 类别1 的概率有多大,是 类别2 的概率有多大。知道这个概率对实际生活是有指导性的作用的, 说个比较牵强的解释吧,当你知道一个地区的男生占比大女生占比小,像一个需要大量劳动力的企业去这个地区招聘会不会好一些,这种应该算是引导性的作用,又或者你家有个池塘,草鱼的比例比桂花鱼大,那你捞鱼的结果是不是捞到草鱼的可能性比较高。

这是知道类别比例的情况,但实际中不可能类别比例知道得一清二楚,或者说可能我们收集到的数据只是真实数据中的一个小角,那么根据这一小角的数据来定义类别比例,是不全面的,可能跟真实的数据分布相反。那么就出现这么一个需求:根据已有的数据去估计类别比例,以此来指导实际生活的应用。贝叶斯的用途就是:根据观察到的数据估计类别比例,也就是条件概率,p(c|d) 这里的c表示类别,具体是 c_{1} 和 c_{2} ,所以实际上要估计的是 p(c_{1}|d) 和 p(c_{2}|d) 。

那么贝叶斯公式是怎么做的呢,下面用一个例子来做一个推导,假设班里有 N 个学生,男生的概率是 p(c_{boy}) ,女生的概率是 p(c_{girl}) ,所有的男生都是短头发,女生只有 10% 是短头发,那么如果你拿到一个照片是短头发的,那么是男生的概率有多少

 

首先,短头发照片是男生的概率,等于 “ 短头发男生 / (短头发男生+短头发女生)”

也就是 \frac{N*p(c_{boy})*p(hair_{short}|c_{boy})}{N*p(c_{boy})*p(hair_{short}|c_{boy})+N*p(c_{girl})*p(hair_{short}|c_{girl})} 而分母位置是短头发男生和女生的人数总和,也就是 

N*p(hair_{short}), 所以上面这个式子变成 \frac{N*p(c_{boy})*p(hair_{short}|c_{boy})}{N*p(hair_{short})} ,而分子分母的 N 又可以约掉,所以最终的式子就是

\frac{p(c_{boy})*p(hair_{short}|c_{boy})}{p(hair_{short})} 。

 

脱离这个例子来说,如果 d 表示数据特征,而 c 表示某一类别的话,基于观察数据 d 推测类别分布的式子应该是下面这样

p(c_{1}|d)=\frac{p(c_{1})\times p(d|c_{1})}{p(d)},所以这个就是贝叶斯公式,用来根据样本数据推断类别分布的式子。

其中 p(c_{1}) 是一个已经可以得到的概率,也就是得到一部分数据后我可以知道 类别1 和 类别2 的比例,这也就是先验概率,即可以提前得到的概率。

而条件概率 p(d|c_{1}) 我认为是在 类别1 中,样本 d 出现的概率。

p(d) 是数据出现的概率,而实际中这个值是任意的,或者是在 p(c_{1}|d)=\frac{p(c_{1})\times p(d|c_{1})}{p(d)} 和 p(c_{2}|d)=\frac{p(c_{2})\times p(d|c_{2})}{p(d)}比较中,分母都是 p(d) ,是可以约去的,不会影响。

所以我觉得重点是落在 p(d|c_{1}) 上,对于一个数据,它在该类别上出现的概率是多少,这个需要定义一种方式去得到它。

暂时就是这么多,作为统计方面的开篇,我感觉上面理解的应该是有错误存在的,等后面继续看的时候再做更正,毕竟把错误的理解保留,也是一件能了解自己想法进程的事。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值