为什么要用贝叶斯

最新推荐文章于 2024-04-13 18:00:00 发布

Smiljoker

最新推荐文章于 2024-04-13 18:00:00 发布

阅读量2.4k

点赞数

分类专栏：统计机器学习文章标签： 1、贝叶斯理解

本文链接：https://blog.csdn.net/katarina_w/article/details/103077365

版权

统计机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

这个博客纯粹是为了记录学习统计机器学习的一些心得，以此来监督自己

首先，为什么要用贝叶斯呢，当然是为了解决实际问题啦，那么待解决的问题是什么，我根据一些资料做了以下的陈述：

当我们获得一个数据集合，假设类别数目是 2 的数据集合，而且类别1 和类别2 的比例已经是知道的，那么我就知道当我拿到一个数据时，他是类别1 的概率有多大，是类别2 的概率有多大。知道这个概率对实际生活是有指导性的作用的，说个比较牵强的解释吧，当你知道一个地区的男生占比大女生占比小，像一个需要大量劳动力的企业去这个地区招聘会不会好一些，这种应该算是引导性的作用，又或者你家有个池塘，草鱼的比例比桂花鱼大，那你捞鱼的结果是不是捞到草鱼的可能性比较高。

这是知道类别比例的情况，但实际中不可能类别比例知道得一清二楚，或者说可能我们收集到的数据只是真实数据中的一个小角，那么根据这一小角的数据来定义类别比例，是不全面的，可能跟真实的数据分布相反。那么就出现这么一个需求：根据已有的数据去估计类别比例，以此来指导实际生活的应用。贝叶斯的用途就是：根据观察到的数据估计类别比例，也就是条件概率， p(c|d) 这里的c表示类别，具体是 $c_{1}$ 和 $c_{2}$ ，所以实际上要估计的是 $p(c_{1}|d)$ 和 $p(c_{2}|d)$ 。

那么贝叶斯公式是怎么做的呢，下面用一个例子来做一个推导，假设班里有个学生，男生的概率是 $p(c_{boy})$ ，女生的概率是 $p(c_{girl})$ ，所有的男生都是短头发，女生只有 10% 是短头发，那么如果你拿到一个照片是短头发的，那么是男生的概率有多少

首先，短头发照片是男生的概率，等于 “ 短头发男生 / （短头发男生+短头发女生）”

也就是 $\frac{N*p(c_{boy})*p(hair_{short}|c_{boy})}{N*p(c_{boy})*p(hair_{short}|c_{boy})+N*p(c_{girl})*p(hair_{short}|c_{girl})}$ 而分母位置是短头发男生和女生的人数总和，也就是

$N*p(hair_{short})$ ，所以上面这个式子变成 $\frac{N*p(c_{boy})*p(hair_{short}|c_{boy})}{N*p(hair_{short})}$ ，而分子分母的 N 又可以约掉，所以最终的式子就是

$\frac{p(c_{boy})*p(hair_{short}|c_{boy})}{p(hair_{short})}$ 。

脱离这个例子来说，如果表示数据特征，而表示某一类别的话，基于观察数据推测类别分布的式子应该是下面这样

$p(c_{1}|d)=\frac{p(c_{1})\times p(d|c_{1})}{p(d)}$ ，所以这个就是贝叶斯公式，用来根据样本数据推断类别分布的式子。

其中 $p(c_{1})$ 是一个已经可以得到的概率，也就是得到一部分数据后我可以知道类别1 和类别2 的比例，这也就是先验概率，即可以提前得到的概率。

而条件概率 $p(d|c_{1})$ 我认为是在类别1 中，样本出现的概率。

p(d) 是数据出现的概率，而实际中这个值是任意的，或者是在 $p(c_{1}|d)=\frac{p(c_{1})\times p(d|c_{1})}{p(d)}$ 和 $p(c_{2}|d)=\frac{p(c_{2})\times p(d|c_{2})}{p(d)}$ 比较中，分母都是 p(d) ，是可以约去的，不会影响。

所以我觉得重点是落在 $p(d|c_{1})$ 上，对于一个数据，它在该类别上出现的概率是多少，这个需要定义一种方式去得到它。

暂时就是这么多，作为统计方面的开篇，我感觉上面理解的应该是有错误存在的，等后面继续看的时候再做更正，毕竟把错误的理解保留，也是一件能了解自己想法进程的事。

Smiljoker

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
为什么要用贝叶斯

这个博客纯粹是为了记录学习统计机器学习的一些心得，以此来监督自己首先，为什么要用贝叶斯呢，当然是为了解决实际问题啦，那么待解决的问题是什么，我根据一些资料做了以下的陈述：当我们获得一个数据集合，假设类别数目是 2 的数据集合，而且类别1 和类别2 的比例已经是知道的，那么我就知道当我拿到一个数据时，他是类别1 的概率有多大，是类别2 的概率有多大。知道这个概率对实际生活是有指导性的...
复制链接

扫一扫

专栏目录