【机器学习】贝叶斯分类器

1、贝叶斯决策论:因此贝叶斯分类器的求解目标,即计算类条件概率P(x|c)

贝叶斯决策论(Bayesian decision theory) 是概率框架下实施决策的基本方法(从概率的角度描述机器学习)。对分类任务来说,在所有相关概率都己知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。

贝叶斯最优分类器h*(x),即选择能使后验概率最大的类别作为其标记,有两种思路:

  • 判别式模型:根据训练集直接建模P(c|x)(如决策树、神经网络、支持向量机等都是先建模,后预测)
  • 生成式模型:先计算联合概率P(c,x),间接得到P(c|x)。
    • P(x)与标记无关
    • P(c)即样本类别频率(根据训练集得到)
    • P(x|c)即类条件概率,代表c类样本子集中,x型样本所占频率。往往由于组合爆炸、样本稀疏,直接进行频率计算不适用。

由此,贝叶斯分类器的目标即为计算P(x|c)

贝叶斯定理:

2、极大似然估计(MLE)

① 假定p(x|c)的概率分布函数(如:正态分布)

② 根据样本集采用MLE估计函数参数

③ 计算P(x|c)

缺陷:假定的概率分布函数是否符合真实分布?(需利用经验知识)

3、朴素贝叶斯分类器(无需模型,纯计数)

属性条件独立性假设:属性之间独立,更易计算P(x|c)

4、半朴素贝叶斯分类器

属性条件不完全独立性假设:属性之间独依赖或多依赖,属性存在父结点

独依赖估计(One-Dependent Estimator,ODE):

  • SPODE(Super Parent ODE):选择超父结点,所有属性依赖同一属性
  • TAN(Tree Augmented naive Bayes):基于最大权生成树算法
  • AODE(Averaged ODE):基于SPODE的集成学习

kDE:每个属性依赖多个父结点

5、贝叶斯网络

亦称信念网(Belief Network),借助有向无环图(DAG)来刻画属性之间的依赖关系,并使用条件概率表(CPT)描述属性的联合概率分布。由此对应两项属性:结构 + 参数。

  • 结构:有向无环图 → 无向图(道德图)
  • 学习:采用“评分函数”先寻找结构最优的贝叶斯网(先建立结构)。为了实际寻优,采用两种策略:
    • 贪心法:预设立结构,逐条调整,直至评分不再降低;
    • 施加结构约束削减搜索空间,如限定为树形结构。
  • 推断:即根据训练集预测测试集。当网络结点多、连接稠密时,难以精确推断,此时采用近似推断——吉布斯采样。

6、EM算法

针对不完整样本(隐变量Z)的模型参数估计问题,不断迭代,直至收敛(类似于梯度下降法,实为坐标下降法,非梯度优化算法)

  • E步:初设模型参数,推断隐变量Z分布,采用MLE计算对数似然关于Z的期望
  • M步:寻找参数最大化期望似然下的新模型参数
  • 10
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值