在所有相关概率都已知的情况下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。
假设有N种可能的类别标记,即
Y={c1,c2,...,cN},λij
是将一个真实标记为
cj
的样本误分类为
ci
所产生的损失。基于后验概率
P(ci|x)
可获得样本
x
分类为
我们的任务是寻找一个判定准则 h:χ→Y以最小化总体风险
显然,对每个样本 x ,若h能最小化条件风险
此时, h∗ 称为贝叶斯最优分类器,与之对应的总体风险 R(h∗) 称之为贝叶斯风险, 1−R(h∗) 反映了分类器所能达到的最好性能,即通过机器学习所能产生的模型精度的理论上限。
若木表是最小化分类错误率,则 λij 可写为:
此时条件风险:
于是,最小化分类错误率的贝叶斯最优分类器为:
对每个样本 x ,选择能使后验概率
想要使用贝叶斯判定准则来最小化决策风险,首先要获得后验概率 P(c|x) ,这通常难以直接获得。从这个角度出发,机器学习所要实现的是基于有限的训练样本集尽可能准确地估计出后验概率 P(c|x) 。事实上,很多机器学习方法无须准确估计后验概率就能准确进行分类。
大体来说,主要有两种策略:1.给定x,通过直接建模
P(c|x)
来预测
c
,这属于“判别式模型”;也可先对联合概率分布
类先验概率 P(c) 对所有类别标记均相同,可通过各类样本出现的频率进行估计。
类条件概率
P(x|c)
亦称之为”似然”,由于涉及x所有属性的联合分布,直接根据样本出现的频率进行估计将会遇到严重的困难。假设样本的
d
个属性都是二值的,则样本空间将有
概念理解:一般来说,时间
A
发生的概率与某一未知的参数
最大似然估计是常用的参数估计方法之一,即已知某个随机样本满足某种概率分布,但是具体的参数未知,参数估计就是通过若干次实验通过其结果推测参数的大概值。
估计类条件概率的一种常用策略是:先假定类条件概率具有某种确定的概率分布形式,再基于训练数据集对概率分布的参数进行估计。具体地,即关于类别c的类条件概率为
P(x|c)
,假设
P(x|c)
具有确实的形式并且被参数向量
θc
唯一确定,则我们的任务就是利用训练集
D
估计参数
事实上,概率模型的训练过程就是参数估计的过程。统计学派认为参数虽未知,但是客观存在的固定值,因此可通过优化似然函数来确定参数值;贝叶斯学派认为,参数也可能具有某种分布,可假设参数服从一个先验分布,然后基于观测到的数据来计算参数的后验概率。极大似然估计属于前者。
令
Dc
表示训练集
D
中第
对 θc 进行极大似然估计就是寻找能使最大化似然 P(Dc|θc) 的参数 θ^c 。直观上看,极大似然估计是试图在 θc 所有可能的取值中找到一个能使数据出现的“可能性”最大的值。
对以上的连乘操作易造成下溢,通常使用对数似然:
此时参数的最大化似然估计 θ^c 为:
基于贝叶斯公式估计后验概率 P(c|x) 的主要困难在于:类条件概率 P(x|c) 是所有属性上的联合概率,难以从有限的数据集或者训练样本中直接估计而得。为避开这个障碍,朴素贝叶斯分类器采用了“属性条件独立性假设”:对已知的类别,假设属性相互独立,即每个属性独立的对分类结果产生影响。
由属性条件独立性假设可得:
对于所有的类别来说, P(x) 相同,因此:
这就是朴素贝叶斯分类器的思想。
基于训练数据集估计类先验概率 P(c) ,并为每一属性估计条件概率 P(xi|c) 。
如果属性是离散的:
如果属性是连续的,可以考虑密度函数,假设
其中 μc,i 和 σ2c,i 分别是第 c 类样本在第
声明:本文内容引自周志华老师《机器学习》。