1、贝叶斯算法概述
贝叶斯要解决的问题:
**正向概率:**假设袋子里面有N个白球,M个黑球,伸手摸一个,摸到黑球的概率。
**逆向概率:**不知道黑白球的比例,随机摸球,由结果推知袋子中的黑白球比例。
为什么使用贝叶斯:
很多的正向概率无法“看到”,日常所观察到的只是事务的表面结果,因此我们需要提供一个可靠的猜测,需要通过反推才能得到某种自然规律的分布。
2、贝叶斯推导实例
这里面的总人数U可以约分。
3、贝叶斯拼写纠错实例
问题:用户输入了单词tha,因为这个单词不存在,所以要进行纠正,那么就整成the还是than呢?
P(h|D)最大的那个,将会被当做预测值。
4、垃圾邮件过滤实例
模型比较理论
最大似然:最符合观测数据的(即P(D|h)最大的)最有优势。
奥卡姆剃刀:P(h)较大的模型有较大的优势。如无必要,勿增实体,即简单有效原理。在科学领域,多个理论都能解释同一个现象,那么采用假设最少者最可能是正确的。
扔一个硬币,观察到是“正”,根据最大似然,我们猜测这枚硬币掷出“正”的概率为1,因为这个才是能最大化P(D|h)的猜测。
垃圾邮件过滤:
下方的扩展是因为前者概率太小!
朴素贝叶斯:假设特征之间是独立的,是互不影响的。