贝叶斯分类器

贝叶斯学习


常用概率公式

乘法规则

  • P ( A B ) = P ( B ) P ( A ∣ B ) P(AB)=P(B)P(A|B) P(AB)=P(B)P(AB)
         = P ( A ) P ( B ∣ A ) =P(A)P(B|A) =P(A)P(BA)
         = P ( B A ) =P(BA) =P(BA)

全概率公式

  • 若事件 A i A_i Ai 互斥,且 ∑ i = 1 n P ( A i ) = 1 \sum_{i=1}^nP(A_i)=1 i=1nP(Ai)=1
  • P ( B ) = ∑ i = 1 n P ( B ∣ A i ) P ( A i ) P(B)=\sum_{i=1}^nP(B|A_i)P(A_i) P(B)=i=1nP(BAi)P(Ai)

贝叶斯定理

先验概率

  • P ( A ) P(A) P(A) A A A 的先验概率
  • P ( B ) P(B) P(B) B B B 的先验概率

条件概率

  • P ( A ∣ B ) P(A|B) P(AB) B B B 成立时 A A A 的概率

后验概率

  • P ( B ∣ A ) P(B|A) P(BA) A A A 成立时 B B B 的概率

贝叶斯定理

  • P ( B ∣ A ) = P ( A ∣ B ) P ( B ) P ( A ) P(B|A)=\frac{P(A|B)P(B)}{P(A)} P(BA)=P(A)P(AB)P(B)

定义变量

  • 样本 x x x 包含 d d d 个属性,即 x = { x 1 , x 2 , . . . , x d } x=\{x_1,x_2,...,x_d\} x={x1,x2,...,xd}
  • 存在 N N N 种可能的类别标记, Y = { c 1 , c 2 , . . . , c N } Y=\{c_1,c_2,...,c_N\} Y={c1,c2,...,cN}
  • 先验概率 P ( c i ) P(c_i) P(ci),条件概率 P ( x ∣ c i ) P(x|c_i) P(xci),后验概率 P ( c i ∣ x ) P(c_i|x) P(cix)

风险

  • 风险 = 原本为 c j c_j cj 的样本误分类为 c i c_i ci 产生的期望损失
  • 期望损失 = 概率 × 损失
  • 即风险 R ( c i ∣ x ) = ∑ j = 1 N λ i j P ( c j ∣ x ) R(c_i|x)=\sum_{j=1}^N\lambda_{ij}P(c_j|x) R(cix)=j=1NλijP(cjx)
  • λ i j = 0       i f   i = j \lambda_{ij}=0 \ \ \ \ \ if \ i=j λij=0     if i=j
        1       e l s e 1 \ \ \ \ \ else 1     else
  • 总体风险: R ( h ) = E x ( R ( c ∣ x ) ) R(h)=\mathbb{E}_x(R(c|x)) R(h)=Ex(R(cx))
  • 并且 R ( c ∣ x ) = 1 − P ( c ∣ x ) R(c|x)=1-P(c|x) R(cx)=1P(cx)

贝叶斯最优分类器

为最小化总体风险,只需在每个样本上选择能够使条件风险最小的类别标记

  • h ∗ ( x ) = arg ⁡ min ⁡ c ∈ y R ( c ∣ x ) h^*(x)=\arg\min_{c\in y}R(c|x) h(x)=argmincyR(cx)
        = arg ⁡ max ⁡ c ∈ y P ( c ∣ x ) =\arg\max_{c\in y}P(c|x) =argmaxcyP(cx)
  • h ∗ h^* h 称为贝叶斯最优分类器

朴素贝叶斯分类器

朴素贝叶斯分类器假设每个属性独立的对分类结果发生影响

  • P ( c ∣ x ) = P ( c ) P ( x ∣ c ) P ( x ) = P ( c ) P ( x ) Π j = 1 d P ( x j ∣ c ) P(c|x)=\frac{P(c)P(x|c)}{P(x)}=\frac{P(c)}{P(x)}\Pi_{j=1}^dP(x_j|c) P(cx)=P(x)P(c)P(xc)=P(x)P(c)Πj=1dP(xjc)
  • 由于对于所有的类别 P ( x ) P(x) P(x) 相同,所以:
  • h N B ( x ) = arg ⁡ max ⁡ c ∈ Y P ( c ) Π j = 1 d P ( x j ∣ c ) h^{NB}(x)=\arg\max_{c\in Y}P(c)\Pi_{j=1}^dP(x_j|c) hNB(x)=argmaxcYP(c)Πj=1dP(xjc)

极大似然估计 (MLE估计)

核心思想

  • 样本集 D = { x 1 , x 2 , . . . , x N } D=\{x_1,x_2,...,x_N\} D={x1,x2,...,xN} 固定且已知
  • 待估计的模型参数 θ \theta θ 固定且未知
  • 输入:样本集 D D D 和 模型参数 θ \theta θ
  • 输出:似然函数
  • 在模型参数 θ \theta θ 所有可能的取值中
  • 找到一个能使似然函数取得最大值的参数值

公式

  • 参数 θ \theta θ 对于数据集 D D D 的似然:
  • L ( θ ) ≜ p ( D ∣ θ ) = Π i = 1 N p ( x i ∣ θ ) L(\theta)\triangleq p(D|\theta)=\Pi_{i=1}^Np(x_i|\theta) L(θ)p(Dθ)=Πi=1Np(xiθ)
  • p ( D ∣ θ ) p(D|\theta) p(Dθ) 为联合密度函数

对数似然公式

  • L L ( θ ) = log ⁡ L ( θ ) = ∑ i = 1 N log ⁡ p ( x i ∣ θ ) LL(\theta)=\log L(\theta)=\sum_{i=1}^N\log p(x_i|\theta) LL(θ)=logL(θ)=i=1Nlogp(xiθ)
  • θ ^ = arg ⁡ max ⁡ θ L L ( θ ) \hat{\theta}=\arg\max_{\theta}LL(\theta) θ^=argmaxθLL(θ)

求解似然函数

  • 若似然函数连续、可微
  • 则解为: d ( L ( θ ) ) d θ = 0 \frac{\mathrm{d}(L(\theta))}{\mathrm{d}\theta}=0 dθd(L(θ))=0 d ( L L ( θ ) ) d θ = 0 \frac{\mathrm{d}(LL(\theta))}{\mathrm{d}\theta}=0 dθd(LL(θ))=0 的解

最大后验概率估计 (MAP估计)

核心思想

  • 样本集 D D D 固定且已知
  • 待估计的模型参数 μ \mu μ 固定且未知
  • 输入:样本集 D D D 和 模型参数 μ \mu μ
  • 输出:似然函数
  • 在模型参数 μ \mu μ 所有可能的取值中
  • 找到一个能使似然函数取得最大值,并且 μ \mu μ 的先验概率最大的的参数值

公式

  • μ ^ M A P = arg ⁡ max ⁡ μ p ( μ ∣ D ) \hat{\mu}_{MAP}=\arg\max_\mu p(\mu|D) μ^MAP=argmaxμp(μD)
        = arg ⁡ max ⁡ μ p ( D ∣ μ ) p ( μ ) p ( D ) =\arg\max_\mu \frac{p(D|\mu)p(\mu)}{p(D)} =argmaxμp(D)p(Dμ)p(μ)
        = arg ⁡ max ⁡ μ p ( D ∣ μ ) p ( μ ) =\arg\max_\mu p(D|\mu)p(\mu) =argmaxμp(Dμ)p(μ)

求解MAP函数

  • 若MAP函数连续、可微
  • 则解为:目标函数=0 的解

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值