机器学习笔记2-贝叶斯分类器

概率论基础知识
条件概率: P(B|A)=P(AB)P(A) P ( B | A ) = P ( A B ) P ( A )
乘法公式: P(AB)=P(A)P(B|A)=P(B)P(A|B) P ( A B ) = P ( A ) P ( B | A ) = P ( B ) P ( A | B )
全概率公式: P(B)=iP(Ai)P(B|Ai) P ( B ) = ∑ i P ( A i ) P ( B | A i )
贝叶斯公式: P(Ai|B)=P(AiB)P(B)=P(Ai)P(B|Ai)jP(Aj)P(B|Aj) P ( A i | B ) = P ( A i B ) P ( B ) = P ( A i ) P ( B | A i ) ∑ j P ( A j ) P ( B | A j ) (P(Ai)P(Ai|B)) ( P ( A i ) 为 先 验 概 率 P ( A i | B ) 为 后 验 概 率 )

1、贝叶斯分类器

Anx=(x1;x2;xn) 某 个 体 A 有 n 项 特 征 : x = ( x 1 ; x 2 ; · · · · · · x n )
mc1c2cm 总 共 有 m 种 可 能 的 类 别 : c 1 、 c 2 · · · · · · c m

已知A的特征,求A所属的类别
P(c|x)=P(c)P(x|c)P(x)(1) (1) P ( c | x ) = P ( c ) P ( x | c ) P ( x )
求使上式最大的种类c

P(x|c)xd2d0 对 于 条 件 概 率 P ( x | c ) , 涉 及 关 于 x 所 有 属 性 的 联 合 概 率 , 对 其 估 计 将 非 常 困 难 , 例 如 样 本 d 个 属 性 都 是 二 值 的 , 则 样 本 空 间 将 有 2 d 种 取 值 , 而 现 实 生 活 中 的 样 本 空 间 将 会 更 大 , 因 而 会 有 很 多 样 本 在 训 练 集 中 根 本 没 有 出 现 ( “ 未 被 观 测 到 ” 与 “ 出 现 概 率 为 0 ” 通 常 是 不 同 的 )

2、朴素贝叶斯分类器

为 了 解 决 上 述 问 题 , 就 有 了 朴 素 贝 叶 斯 分 类 器 , 它 基 于 一 条 新 的 假 设 对 已 知 类 别 , 假 设 所 有 属 性 相 互 独 立
(1) 基 于 上 述 假 设 , 公 式 ( 1 ) 可 写 成
P(c|x)=P(c)P(x|c)P(x)=P(c)P(x)ni=1P(xi|c)(2) (2) P ( c | x ) = P ( c ) P ( x | c ) P ( x ) = P ( c ) P ( x ) ∏ i = 1 n P ( x i | c )

(2)P(c)ni=1P(xi|c) 求 ( 2 ) 的 最 大 值 可 转 化 为 求 P ( c ) ∏ i = 1 n P ( x i | c ) 最大值
朴素贝叶斯分类器的训练就是通过训练集来估计先验概率 P(c)P(xi|c) P ( c ) 和 每 个 特 征 的 条 件 概 率 P ( x i | c )

DDcc 假 设 训 练 集 为 D , D c 表 示 训 练 集 中 第 c 类 样 本 组 成 的 集 合
P(c)=|Dc||D| P ( c ) = | D c | | D |
对于离散特征而言
P(xi|c)=|Dc,xi||D| P ( x i | c ) = | D c , x i | | D |
对于连续特征而言,假定 p(xi|c) p ( x i | c ) ~ N(uc,i,σ2c,i) N ( u c , i , σ c , i 2 )
uc,iσ2c,ici u c , i 和 σ c , i 2 为 第 c 类 样 本 在 第 i 个 特 征 上 取 值 的 均 值 和 方 差

3、半朴素贝叶斯分类器

朴素贝叶斯分类器的“特征条件独立性假设”在现实中很难成立,因此人们尝试对此假设进行一定程度的放松

4、贝叶斯网

借助有向无环图来刻画特征之间的依赖关系,使用条件概率表来描述属性的联合概率分布

5、EM算法

现实中,训练样本可能存在不能被观测到的样本特征(隐变量),EM算法考虑了这些未观测变量,并用迭代的方法对这些隐变量进行估计

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值