一、朴素贝叶斯的学习与分类
1.1 简介
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。
对于给定的训练数据集,首先基于特征条件独立假设学习输入输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。
1.2 基本方法
朴素贝叶斯法通过训练数据集学习联合概率分布P(X, Y)。而联合概率分布又需要先验概率分布和条件概率分布来得到,下面介绍一下它们分别是什么。
先验概率分布:
条件概率分布:
朴素贝叶斯对条件概率分布作了条件独立性假设:
样本的不同特征之间相互独立没有影响
后验概率:
朴素贝叶斯分类基本公式:
朴素贝叶斯分类器:
分母都为一样的,所以可以转化为:
1.3例子(用于理解公式,可跳过)
例:一共有苹果10个、香蕉6个、橘子4个装在一个筐中,先将它们分到两个筐中。
A筐有3个苹果、4个香蕉、1个橘子。
B筐有7个苹果、2个香蕉、3个橘子。
先验概率:
P(苹果) = 10/20,P(香蕉) = 6/10, P(橘子) = 4/20, P(A) = 8/20
条件概率:
已知水果来自A筐则它为苹果的概率P(苹果 | A)
P(苹果 ,A) = 3/20,P(A) = 8/20
P(苹果 | A) = P(苹果 ,A) / P(A) = 3/8
后验概率:
拿到一个苹果则它来自A筐的概率P(A | 苹果)
P(A | 苹果) = P(苹果 ,A) / P(苹果)
P(苹果 ,A) = P(苹果 | A) * P(A)
P(苹果) = P(苹果 | A) * P(A) + P(苹果 | B) * P(B) 注:也叫全概率公式
1.4 后验概率最大化的含义
个人理解:选择0-1损失函数,分类错误则概率乘一,正确则概率乘零,求期望风险的最小值就相当于求分类错误的后验概率之和的最小值。分类错误的后验概率就等于1减去分类正确的后验概率,即求分类正确的后验概率最大值。
0-1损失函数:
f(X)为分类决策函数
期望风险函数为:
由此得到:
二、朴素贝叶斯法的参数估计
2.1 极大似然估计
极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。
极大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值
示例:
假定一个盒子里有白球、黑球共三个,但不知白球和黑球分别有几个。如果有放回的从盒子里抽取三个球,发现第一个、第三个球是黑色的,第二个球是白色的。
问:如何估计盒中黑球所占比例β?
参数空间:{0,1/3,2/3,1}
样本:抽到黑色记为X=1,抽到白色记为X=0
得到概率密度函数为:
联合概率函数:
似然函数:X1=X2=1,X3=0
参数求解:
逐个带入选择使似然函数最大的值对应的概率
极大似然估计:
遍历——解析解——迭代法
在现实中数据集经常会很大,参数空间很多这个逐个带入就很慢,可以采用求偏导的方式求出极大似然估计。无法求偏导的情况采用迭代(先给定一个值,根据结果慢慢进行更新,最后求出极大似然估计)
首先由极大似然估计得到先验概率、条件概率。然后由先验概率、条件概率得到后验概率,最后根据后验概率最大值得到样本所属的类。
2.2学习与分类算法
后验概率分母相同所以直接比较分子
2.3贝叶斯估计
当测试集为女儿国的时候,男生的占比为0,但是对总体数据来说男生是不为零的,所以引入贝叶斯估计。
加上λ就不会出现占比为0的情况了。下面加上Kλ,是为了使总的概率和为1。
注:入≥0 入=0时为极大似然估计,入=1时为拉普拉斯平滑(Laplacian Smoothing)。
参考:b站简博士《十分钟机器学习系列视频》