1.贝叶斯理论
在已知相关概率下,基于概率和误判损失来选择最优的类别标记。
假设类别标记总数为N,即Y{c1,c2..cn}.rij表示将一个真实样本为cj误判为ci的损失,p(ci|x)表示样本x分类为ci的概率,则有样本x的条件风险:
寻找一个判定准则h,使得X---->Y,总体风险最小
贝叶斯判定准则:对于每个样本x,若R(h(x)|x)最小,则总体风险R(h)也将最小。
h*为最优贝叶斯分类器,R(h*)为贝叶斯风险,对于每个样本,选择那个条件风险R(c|x)最小的类别标记
若最小化分类错误率,损失函数:
则样本x的条件风险:
最小化分类错误率的最优贝叶斯分类器:
欲求P(c|x)的最大值,有
P(c)为样本中各个类别的概率 P(x|c)是样本在分类c下的特征属性分布概率 P(x)是样本x分布概率,与类别标记无关。
P(c)表达了样本中各个类别的比重,可以利用样本中的类别数量频率来进行估计;P(x|c)是样本在已知分类为c的条件下,各个特征属性的联合分布,x为样本特征向量,一般多维,联合概率难以求解和估计。
2.极大似然估计
估计类条件概率一般采用极大似然估计,即先假定具有某种确定的概率分布形式,再基于训练样本对概率分布参数进行估计。结果的准确依赖于假设的分布是否接近于数据真实的分布。
Dc表示训练集中第c类样本组成的集合,假定这些样本独立同分布,则参数oc对于Dc的似然估计为:
即求得参数oc,使得样本所有可能出现的可能性最大
为了避免连乘造成下溢,取对数似然:
即参数似然估计的任务:
3.朴素贝叶斯分类器NBC
P(x|c)表示已知类别c下的属性联合分布,x=(x1,x2...xd)为d喂向量,一般难于求解,NBC假设x的所有特征属性相互独立,独立的对于结果发生影响,基于条件属性独立性假设:
NBC分类属性表达式,即
类先验概率P(c) Dc表示训练集D中c类样本数
对于离散属性: Dcxi表示第c类中第一个属性值为xi的样本数
对于连续属性 假定 其中第c类样本中第i个属性取值的均值和方差(多维高斯分布)
说明:
中心极限定理:样本的平均值约等于总体的平均值。不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。
拉普拉斯平滑:为避免训练集中其他属性被未出现的属性而抹去,需要进行平滑,避免因训练集样本不充分而出现概率为0的情况
N表示训练集D中可能的类别数,Ni表示第i个属性可能的取值数
4.半朴素贝叶斯分类器SNBC
独依赖估计(ODE)假设每个属性依赖于类别之外最多仅依赖于一个其他属性
pai为属性xi的依赖属性,称为xi的父属性。如何为每个属性确定父属性:
1.SPODE
假设所有属性依赖于同一个超父属性,通过交叉验证来确定最优超父属性
2.TAN
利用最大带权生成树算法
(1)计算任意两个属性之前的条件互信息
(2)以属性为节点构建完全图,权重为条件互信息
(3)构建最大带权生成树
(4)加入类别属性y,增加y到各个属性的有向边
3.AODE
采用集成学习,将每个属性作为父属性来构建SPOED,然后选取那些足够训练数据的SPODE来集成学习
Dxi是第i个属性上取值为xi的样本集合,m`为阈值
Dcxi表示类别为c且第i个属性为xi的样本集合 N表示D中可能类别数 Ni表示第i个属性可能取值数
Dcxixj 表示类别为c且第i属性为xi,第j个属性为xj的样本集合
5.贝叶斯网
5.1结构
贝叶斯网由网络结构G和参数O组成 B=<G,O> G是一个有向无环图 O描述这种依赖关系。
给定某个节点,贝叶斯网假定属性与他的非后裔属性独立
分析变量间的条件独立性,有向分解,将有向图变为无向图:找出图中所有V型结构,在两个父节点之间添加一条无向边,将图中所有有向边变为无向边,变为道德图
在道德图中,变量x,y,能被属性集合Z={zi}分开,则说明在Z的条件下,x和y独立
5.2网络结构学习
评分函数:
其中|B|为贝叶斯网络的参数 f(O)为每个参数的编码长度 LL(B|D)为贝叶斯网的对数似然
AIC f(O)=1
BIC f(O)=logm/2
从所有可能空间搜索贝叶斯网是NP难问题,可以近似求解 1贪心法 逐渐增加边的数量 2施加约束来不断减少边的数量。
5.3推断
吉布斯采样算法:
Q={Q1,Q2..Qn}待查询的变量
E={E1,E2...Ek}证据变量 取值e={e1,e2...ek}
计算P(Q=q|E=e) q={q1,q2..qn}待查询变量的一组取值
吉布斯采样算法:
6.EM算法
未观测变量为隐变量 X已观测变量 Z隐变量 O参数
对参数O进行最大似然估计
计算Z期望来最大化已观测数据的边际似然
E步:以当前参数的估计值来计算对数似然的期望值
M步:寻找使E中对数似然最大的参数值