贝叶斯 ,英国数学家。1702年出生于伦敦,做过神甫。1742年成为英国皇家学会会员。1763年4月7日逝世。贝叶斯在数学方面主要研究概率论。他首先将归纳推理法用于概率论基础理论,并创立了贝叶斯统计理论,对于统计决策函数、统计推断、统计的估算等做出了贡献。
- 条件概率
P(A|B) 在事情B发生的条件下A发生的条件概率,其求解公式为: P(A|B)=P(AB)/P(B)
贝叶斯定理的意义在于,我们在生活中经常遇到这种情况:我们可以很容易直接得出P(A|B),P(B|A)则很难直接得出,但我们更关心P(B|A),贝叶斯定理就为我们打通从P(A|B)获得P(B|A)的道路。
- 贝叶斯定理公式
P(B|A)随着P(B)和P(A|B)的增长而增长,随着P(A)的增长而减少
即如果A独立于B时被观察到的可能性越大,那么B对A的支持度越小.
P(A) 表示在没有训练数据前假设A拥有的初始概率。P(A)被称为A的先验概率.
P(A|B) 表示假设B成立时A的概率
机器学习中我们关心的是P(B|A),即给定A时B的成立的概率,称为B的后验概率
举例:
实例目的是通过天气、温度、湿度、风力四个因素来决定是否去打球
数据如下表
表1 实例数据集 | |||||
Number | 天气 | 温度 | 湿度 | 风力 | Play |
1 | 晴朗 | 高 | 高 | 弱 | No |
2 | 晴朗 | 高 | 高 | 强 | No |
3 | 多云 | 高 | 高 | 弱 | Yes |
4 | 雨天 | 适中 | 高 | 弱 | Yes |
5 | 雨天 | 冷 | 正常 | 弱 | Yes |
6 | 雨天 | 冷 | 正常 | 强 | No |
7 | 多云 | 冷 | 正常 | 强 | Yes |
8 | 晴朗 | 适中 | 高 | 弱 | No |
9 | 晴朗 | 冷 | 正常 | 弱 | Yes |
10 | 雨天 | 适中 | 正常 | 弱 | Yes |
11 | 晴朗 | 适中 | 正常 | 强 | Yes |
12 | 多云 | 适中 | 高 | 强 | Yes |
13 | 多云 | 高 | 正常 | 弱 | Yes |
14 | 雨天 | 适中 | 高 | 强 | No |
表2 以往部分打球数据库类标记的训练元组统计 | ||||||||||
| 天气 | 温度 | 湿度 | 风力 | ||||||
打球 | 晴朗 | 多云 | 雨天 | 高温 | 温和 | 凉爽 | 高 | 正常 | 弱 | 强 |
是(9) | 2 | 4 | 3 | 2 | 4 | 3 | 6 | 6 | 6 | 3 |
否(5) | 3 | 0 | 2 | 2 | 2 | 1 | 1 | 2 | 2 | 3 |
P(Y=Yes)=9/14 P(Y=no)=5/14
我们需要利用训练数据计算后验概率P(Yes|x)和P(No|x),如果P(Yes|x)>P(No|x),那么新实例分类为Yes,否则为No。
我们将使用此表的数据,并结合朴素贝叶斯分类器来分类下面的新实例:
Day | Outlook | Temperature | Humidity | Wind | Play Tennis |
D1 | Sunny | Hot | High | Weak | No |
D2 | Sunny | Hot | High | Strong | No |
D8 | Sunny | Mild | High | Weak | No |
D14 | Rain | Mild | High | Strong | No |
D6 | Rain | Cool | Normal | Strong | No |
P(Humidity = High |No) =4/5 P(Wind = Strong |No) =3/5
P(Outlook = Sunny|No)=3/5 P(Temperature = Cool |No) =1/5
P(X|Y=NO)=(3/5)*(1/5)*(4/5)*(3/5)=36/625 P(Y=NO)=5/14
P(X|Y=NO)*P(Y=NO)=18/875
Day | Outlook | Temperature | Humidity | Wind | PlayTennis |
D3 | Overcast | Hot | High | Weak | Yes |
D4 | Rain | Mild | High | Weak | Yes |
D5 | Rain | Cool | Normal | Weak | Yes |
D7 | Overcast | Cool | Normal | Strong | Yes |
D9 | Sunny | Cool | Normal | Weak | Yes |
D10 | Rain | Mild | Normal | Weak | Yes |
D11 | Sunny | Mild | Normal | Strong | Yes |
D12 | Overcast | Mild | High | Strong | Yes |
D13 | Overcast | Hot | Normal | Weak | Yes |
P(Outlook = Sunny|Yes)=2/9 P(Temprature = Cool |Yes) =3/9
P(Humidity = High |Yes) =3/9 P(Wind = Strong |Yes) =3/9
P(X|Y=YES)=(2/9)*(3/9)*(3/9)*(3/9)=2/283 P(Y=YES)=9/14
P(X|Y=YES)*P(Y=YES)=(2/9)*(3/9)*(3/9)*(3/9)*(9/14)=1/189
P(X|Y=NO)*P(Y=NO)=18/875 大于 P(X|Y=YES)*P(Y=YES)=1/189 所以该样本分类为NO.