其中一个非常重要的方法就是朴素贝叶斯。朴素贝叶斯分类器是特征条件独立假设并基于贝叶斯定理的分类方法,它是一种传统的分类方法,有着较深的基础数学理论基础,这个方法非常受重视是因为:
- 它易于构造,模型参数的估计不需要任何复杂的迭代求解框架,非常适用于规模巨大的数据集;
- 它易于解释,即便是不熟悉分类计数的用户也能理解;
- 分类效果好,对于任何应用,它的分类效果即便不是最好的,也可能是最稳健的;
该方法的数学基础是贝叶斯定理和贝叶斯公式。
贝叶斯定理:随机事件
A,B
的条件或边缘概率的定理;
贝叶斯公式:用来描述两个条件概率之间的关系,
注:
边缘概率:某个事件发生的概率与其他事件无关;
首先给出一些量的定义:
P(i|x)
表示一个测量对象为
x=(x1,x2,...,xp)
的对象属于类别
i
的概率;
P(i)
为不知道对象自身任何信息的情况下该对象属于类别
i
的概率(即类别
P(x)
为类别的混合分布
很明显,如果对
P(i|x)
的估计能得到一个合适的分数,可以将之用于分类规则。
在所有相关概率都已知的情况下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。
假设有N种可能的类别标记,即
Y={c1,c2,...,cN},λij
是将一个真实标记为
cj
的样本误分类为
ci
所产生的损失。基于后验概率
P(ci|x)
可获得样本
x
分类为
注:
决策论将“期望损失”称为“风险”;
我们的任务是寻找一个判定准则 h:χ→Y 以最小化总体风险
显然,对每个样本 x ,若h能最小化条件风险
此时, h∗ 称为贝叶斯最优分类器,与之对应的总体风险 R(h∗) 称之为贝叶斯风险, 1−R(h∗) 反映了分类器所能达到的最好性能,即通过机器学习所能产生的模型精度的理论上限。
若木表是最小化分类错误率,则 λij 可写为:
此时条件风险:
于是,最小化分类错误率的贝叶斯最优分类器为:
对每个样本 x ,选择能使后验概率
想要使用贝叶斯判定准则来最小化决策风险,首先要获得后验概率 P(c|x) ,这通常难以直接获得。从这个角度出发,机器学习所要实现的是基于有限的训练样本集尽可能准确地估计出后验概率 P(c|x) 。事实上,很多机器学习方法无须准确估计后验概率就能准确进行分类。
大体来说,主要有两种策略:1.给定x,通过直接建模
P(c|x)
来预测
c
,这属于“判别式模型”;也可先对联合概率分布
类先验概率 P(c) 对所有类别标记均相同,可通过各类 样本出现的频率进行估计。
类条件概率
P(x|c)
亦称之为”似然”,由于涉及x所有属性的联合分布,直接根据样本出现的频率进行估计将会遇到严重的困难。假设样本的
d
个属性都是二值的,则样本空间将有
注:
联合概率
P(AB)
或者
P(A⋂B)
:多元随机变量分别满足各自条件的概率
概念理解:一般来说,时间
A
发生的概率与某一未知的参数
最大似然估计是常用的参数估计方法之一,即已知某个随机样本满足某种概率分布,但是具体的参数未知,参数估计就是通过若干次实验通过其结果推测参数的大概值。
估计类条件概率的一种常用策略是:先假定类条件概率具有某种确定的概率分布形式,再基于训练数据集对概率分布的参数进行估计。具体地,即关于类别c的类条件概率为
P(x|c)
,假设
P(x|c)
具有确实的形式并且被参数向量
θc
唯一确定,则我们的任务就是利用训练集
D
估计参数
事实上,概率模型的训练过程就是参数估计的过程。统计学派认为参数虽未知,但是客观存在的固定值,因此可通过优化似然函数来确定参数值;贝叶斯学派认为,参数也可能具有某种分布,可假设参数服从一个先验分布,然后基于观测到的数据来计算参数的后验概率。极大似然估计属于前者。
令
Dc
表示训练集
D
中第
注:
独立同分布:在随机过程中,任何时刻的取值均为随机变量,如果这些随机变量服从同一分布,且相互独立,则这些变量是独立同分布的。
对 θc 进行极大似然估计就是寻找能使最大化似然 P(Dc|θc) 的参数 θ^c 。 直观上看,极大似然估计是试图在 θc 所有可能的取值中找到一个能使数据出现的“可能性”最大的值。
对以上的连乘操作易造成下溢,通常使用对数似然:
此时参数的最大化似然估计 θ^c 为:
基于贝叶斯公式估计后验概率 P(c|x) 的主要困难在于:类条件概率 P(x|c) 是所有属性上的联合概率,难以从有限的数据集或者训练样本中直接估计而得。为避开这个障碍,朴素贝叶斯分类器采用了“属性条件独立性假设”:对已知的类别,假设属性相互独立,即每个属性独立的对分类结果产生影响。
由属性条件独立性假设可得:
对于所有的类别来说, P(x) 相同,因此:
这就是朴素贝叶斯分类器的思想。
基于训练数据集估计类先验概率 P(c) ,并为每一属性估计条件概率 P(xi|c) 。
如果属性是离散的:
如果属性是连续的,可以考虑密度函数,假设
其中 μc,i 和 σ2c,i 分别是第 c 类样本在第
声明:本文内容引自周志华老师《机器学习》