贝叶斯方法的提出:
正概率问题:假如袋子里有M个黑球、N给白球,你伸手进去摸一个,摸出黑球的概率有多大?摸出白球的的概率有多大?
解答:黑球概率P(A)=M/(M+N) ,白球概率P(B)=N/(M+N)。——(1)
逆概率问题:事先不知道袋子里有多少个黑球、多少个白球,你怎样通过实验,预测黑白球的比例?
解答:采用不放回地摸取,摸出k个球,其中m个黑球,n个白球,通过计算m、n占k的比例,来推断袋子里黑球、白球的比例。
朴素贝叶斯分类器是基于贝叶斯定理的分类器。该分类器基于条件独立的假设,既样本的每个特征都与其它特征无关。贝叶斯分类器通过某对象的先验概率,来计算其后验概率。
先验概率:在实验之前,对过去资料统计或主观判断所得到的概率。(1)中P(A)、P(B)就是先验概率。
后验概率:由已知结果再追溯原因出在何处,由此修正先验概率。后验概率就是条件概率。条件概率P(A|B)=P(B|A)*P(A)/P(B),由乘法公式P(AB)=P(A)*P(B|A)=P(B)*P(A|B)推导出。
贝叶斯分类是监督学习的一种。给定一个测试样例d,估计它的后验概率,Pr(C=cj|d)。
考察什么类别对于d的概率最大,便将该类别赋予样例d。
在数据集D中,令A1, A2,…,A|A|为用离散值表示的属性的集合。令C为具有|C|个不同值的类别属性,即