注:其实不是原创,可也不是转载和翻译,是整理的邹博《机器学习》视频配套ppt里关于朴素贝叶斯的算法推导。怎么就没有个其它选项,不选还不行?
数学基本公式
条件概率公式:
全概率公式:
贝叶斯公式:
朴素贝叶斯算法 Naive Bayes
1、问题
对于给定的特征向量
X(x1,x2,...,xn)
X
(
x
1
,
x
2
,
.
.
.
,
x
n
)
,类别
y
y
的概率可以根据贝叶斯公式得到:
求给定新的样本 xn+1 x n + 1 时,其类别 y^ y ^ 是什么。
2、推导
(1)特征独立性假设:一个特征出现的概率,与其它特征(条件)独立,每个特征同等重要。
(2)由上面假设推出:
则有:
(3)又,在给定样本集的前提下, P(x1,x2,...,xn) P ( x 1 , x 2 , . . . , x n ) 是常数,则有
(4)从而
高斯朴素贝叶斯Gaussian Naive Bayes
假定特征服从高斯分布,即有:
参数使用MLE估计即可:
假定训练集为T
将 P(xi|y) P ( x i | y ) 代入朴素贝叶斯公式求出 y^ y ^
多项式朴素贝叶斯 Multinomial Naive Bayes
假定特征服从多项式分布,对每个类别
y
y
,参数为
其中 n n 为特征的数目,的概率为 θyi θ y i
参数 θy θ y 使用MLE估计的结果为:
假定训练集为T,属于y类别的样本集为 Ty T y ,则有:
Nyi=∑xϵTyxi N y i = ∑ x ϵ T y x i (属于 y y 类别的样本中出现多少次)
Ny=∑Ti=1Nyi N y = ∑ i = 1 T N y i (属于 y y 类别的样本个数)
其中:
称为Laplace平滑,避免 θyi θ y i 出现0/0的算法异常;
α<1 α < 1 称为Lidstone平滑
将 P(xi|y) P ( x i | y ) 代入朴素贝叶斯公式求出 y^ y ^