书山有路勤为径,学海无涯苦作舟
一、贝叶斯算法概述
贝叶斯(约1701-1761) Thomas Bayes,英国数学家
贝叶斯方法源于他生前为解决一个“逆概”问题写的一篇文章
贝叶斯要解决的问题∶
正向概率∶假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大
M/(M+N)
逆向概率∶如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之后,那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测???
Why贝叶斯?
-
现实世界本身就是不确定的,人类的观察能力是有局限性的
-
我们日常所观察到的只是事物表面上的结果,因此我们需要提供一个猜测
二、贝叶斯推导实例
贝叶斯案例:
问题前提:假设总数为U(但是现实中可能有些问题的U无法算出来)
算出穿长裤的男女生的概率:
求解:
与总人数没关系:
化简:
贝叶斯公式:
三、贝叶斯拼写纠错实例
P(h):为先验概率,事先统计好的,每个词在整体语料数据库中出现的频次概率。
四、垃圾邮件过滤实例
4.1 理论比较
最大似然估计:
奥卡姆剃刀:表示在实际生活中什么越常见,什么就是越好的
4.2垃圾邮件过滤案例
P(h+) = 数据库中垃圾邮件数目 / 总邮件数目
P(D/ h+) = D单词 在 垃圾邮件中出现的概率
原始问题比较严格,需要一模一样。所以可以将原始问题进行扩展:
将原始的问题转化为朴素贝叶斯问题
最后就可以计算出属于正常邮件与垃圾邮件的概率: