这个博客纯粹是为了记录学习统计机器学习的一些心得,以此来监督自己
首先,为什么要用贝叶斯呢,当然是为了解决实际问题啦,那么待解决的问题是什么,我根据一些资料做了以下的陈述:
当我们获得一个数据集合,假设类别数目是 2 的数据集合,而且 类别1 和 类别2 的比例已经是知道的,那么我就知道当我拿到一个数据时,他是 类别1 的概率有多大,是 类别2 的概率有多大。知道这个概率对实际生活是有指导性的作用的, 说个比较牵强的解释吧,当你知道一个地区的男生占比大女生占比小,像一个需要大量劳动力的企业去这个地区招聘会不会好一些,这种应该算是引导性的作用,又或者你家有个池塘,草鱼的比例比桂花鱼大,那你捞鱼的结果是不是捞到草鱼的可能性比较高。
这是知道类别比例的情况,但实际中不可能类别比例知道得一清二楚,或者说可能我们收集到的数据只是真实数据中的一个小角,那么根据这一小角的数据来定义类别比例,是不全面的,可能跟真实的数据分布相反。那么就出现这么一个需求:根据已有的数据去估计类别比例,以此来指导实际生活的应用。贝叶斯的用途就是:根据观察到的数据估计类别比例,也就是条件概率, 这里的c表示类别,具体是 和 ,所以实际上要估计的是 和 。
那么贝叶斯公式是怎么做的呢,下面用一个例子来做一个推导,假设班里有 个学生,男生的概率是 ,女生的概率是 ,所有的男生都是短头发,女生只有 10% 是短头发,那么如果你拿到一个照片是短头发的,那么是男生的概率有多少
首先,短头发照片是男生的概率,等于 “ 短头发男生 / (短头发男生+短头发女生)”
也就是 而分母位置是短头发男生和女生的人数总和,也就是
, 所以上面这个式子变成 ,而分子分母的 N 又可以约掉,所以最终的式子就是
。
脱离这个例子来说,如果 表示数据特征,而 表示某一类别的话,基于观察数据 推测类别分布的式子应该是下面这样
,所以这个就是贝叶斯公式,用来根据样本数据推断类别分布的式子。
其中 是一个已经可以得到的概率,也就是得到一部分数据后我可以知道 类别1 和 类别2 的比例,这也就是先验概率,即可以提前得到的概率。
而条件概率 我认为是在 类别1 中,样本 出现的概率。
是数据出现的概率,而实际中这个值是任意的,或者是在 和 比较中,分母都是 ,是可以约去的,不会影响。
所以我觉得重点是落在 上,对于一个数据,它在该类别上出现的概率是多少,这个需要定义一种方式去得到它。