朴素贝叶斯
基于贝叶斯定理与特征条件独立的假设的分类方法。
对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。
贝叶斯定理
P(A|B):在事件B发生条件 下的事件A发生的概率,在贝叶斯定理中,条件概率也被称为后验概率,在事件B发生之后,对事件A发生的概率的重新评估。
P(B|A):在事件A发生条件下的事件B发生的概率
P(A)与P(B)被称为先验概率(边缘概率):P(A)是指事件B发生之前,对事件A概率的一个推断。
P(B|A)/P(B)被称为标准相似度:它是一个调整因子,主要为保证预测概率更接近真实概率。
贝叶斯定理:后验概率=标准相似度*先验概率
加上全概率公式之后贝叶斯定理变为:
朴素贝叶斯
朴素贝叶斯法实际上学到的是生成数据的机制,属于生成模型。
朴素贝叶斯法分类时,对给定的输入x,通过学习到的模型计算后验概率分布
,将后验概率最大的类作为x的类输出。
后验概率计算由贝叶斯定理得:
那么朴素贝叶斯分类器就为:
朴素贝叶斯法的参数估计
训练数据学习后验概率和先验概率的估计
极大似然估计
在朴素贝叶斯法中,学习意味着估计先验概率已经后验概率,可以用极大似然估计的方法来估计相应的概率。
先验概率的极大似然估计为:
条件概率的极大似然估计是:
朴素贝叶斯的学习与分类算法:
(3)后验概率最大等价于0-1损失函数时的期望风险最小化。
贝叶斯估计
条件概率的贝叶斯估计:
拉姆达等于0就是极大似然估计,拉姆达等于1就是拉普拉斯平滑。
先验概率的贝叶斯估计: