掘金笔记:朴素贝叶斯模型

本文深入探讨朴素贝叶斯模型,介绍了模型的基础定理、条件独立假设、主要策略、参数估计方法,如极大似然估计和拉普拉斯平滑,并讨论了高斯贝叶斯分类器和伯努利贝叶斯分类器的应用。通过分析,揭示了朴素贝叶斯模型如何利用贝叶斯定理进行分类决策,并证明了后验概率最大化等价于期望风险最小化。
摘要由CSDN通过智能技术生成

朴素贝叶斯模型

1 - 基础定理与定义

  • 条件概率公式:
    P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B)=\dfrac{P(AB)}{P(B)} P(AB)=P(B)P(AB)

  • 全概率公式:
    P ( A ) = ∑ j = 1 N P ( A B i ) = ∑ j = 1 N P ( B i ) P ( A ∣ B i ) P(A)=\sum_{j=1}^N P(AB_i)=\sum_{j=1}^N P(B_i)P(A|B_i) P(A)=j=1NP(ABi)=j=1NP(Bi)P(ABi)

  • 贝叶斯公式:
    P ( B i ∣ A ) = P ( A B i ) P ( A ) = P ( B i ) P ( A ∣ B i ) ∑ j = 1 N P ( B i ) P ( A ∣ B i ) P(B_i|A)=\dfrac{P(AB_i)}{P(A)}=\dfrac{P(B_i)P(A|B_i)}{\sum_{j=1}^N P(B_i)P(A|B_i)} P(BiA)=P(A)P(ABi)=j=1NP(Bi)P(ABi)P(Bi)P(ABi)

  • 概率加和规则:
    P ( X = x i ) = ∑ j = 1 N P ( X = x i , Y = y j ) P\left(X=x_i\right)=\sum_{j=1}^N P\left(X=x_i,Y=y_j\right) P(X=xi)=j=1NP(X=xi,Y=yj)

    P ( X ) = ∑ Y P ( X , Y ) P\left(X\right)=\sum_Y P\left(X,Y\right) P(X)=YP(X,Y)

  • 概率乘积规则:
    P ( X = x i , Y = y j ) = P ( Y = y j ∣ X = x i ) P ( X = x i ) P\left(X=x_i,Y=y_j\right)=P\left(Y=y_j|X=x_i\right)P\left(X=x_i\right) P(X=xi,Y=yj)=P(Y=yjX=xi)P(X=xi)

    P ( X , Y ) = P ( Y ∣ X ) P ( X ) P\left(X,Y\right)=P\left(Y|X\right)P\left(X\right) P(X,Y)=P(YX)P(X)

  • 生成学习方法:

    利用训练数据学习 P ( X ∣ Y ) P(X|Y) P(XY) P ( Y ) P(Y) P(Y)的估计,得到联合概率分布:
    P ( X , Y ) = P ( Y ) P ( X ∣ Y ) P(X,Y)=P(Y)P(X|Y) P(X,Y)=P(Y)P(XY)
    然后求得后验概率分布 P ( Y ∣ X ) P(Y|X) P(YX). 具体概率估计方法可以是极大斯坦估计或者贝叶斯估计。

2 - 模型简述

朴素贝叶斯( n a i v e naive naive B a y e s Bayes Bayes)是基于贝叶斯定理与特征条件独立假设的分类方法。

对于给定的训练数据集,首先基于条件独立假设,学习输入输出的联合概率分布;然后基于此模型,对给定的输入 x x x,利用贝叶斯定理,求出后验概率最大的输出类 y y y

后验概率最大等价于 0 − 1 0-1 01损失函数时的期望风险最小化。

作为典型的生成学习方法,朴素贝叶斯实现简单,学习和预测效率都很高,是一种常用模型。

以下主要介绍经典的多项式贝叶斯分类器

3 - 模型假设

  1. 训练集 P ( X , Y ) P(X,Y) P(X,Y)独立同分布产生

  2. 条件独立性假设。用于分类的特征,在类确定的条件下独立,即:
    P ( X = x ∣ Y = c k ) = P ( X ( 1 ) = x ( 1 ) , ⋯   , X ( n ) = x ( n ) ∣ Y = c k ) = ∏ j = 1 n P ( X ( j ) = x ( j ) ∣ Y = c k ) \begin{aligned} P\left(X=x | Y=c_{k}\right) &=P\left(X^{(1)}=x^{(1)}, \cdots, X^{(n)}=x^{(n)} | Y=c_{k}\right) \\ &=\prod_{j=1}^{n} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right) \end{aligned} P(X=xY=ck)=P(X(1)=x(1),,X(n)=x(n)Y=ck)=j=1nP(X(j)=x(j)Y=ck) 这是一个较强的假设。在对性能作出一些妥协的条件下,此假设使模型包含条件概率的数量大为减少,使模型的学习与预测大为简化,从而高效而易于实现。

    条件独立性假设也可视为最简单的有向概率图模型。

4 - 模型主要策略

  1. 极大似然估计
  2. 最大化后验概率

5 - 模型输入

训练集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x N , y N ) } T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\} T={ (x1,y1),(x2,y2),,(xN,yN)} x i ∈ X ⊆ R n x_i\in\mathcal{X} \subseteq \mathbf{R}^{n} xiXRn i = 1 , 2 , … , N i=1,2,\dots,N i=1,2,,N y ∈ Y = { c 1 , c 2 , … , c k } y\in\mathcal{Y}=\{c_1,c_2,\dots,c_k\} yY={ c1,c2,,ck} ∣ Y ∣ = K |\mathcal{Y}|=K Y=K x i = ( x i ( 1 ) , x i ( 2 ) , ⋯   , x i ( n ) ) T x_{i}=\left(x_{i}^{(1)}, x_{i}^{(2)}, \cdots, x_{i}^{(n)}\right)^{\mathrm{T}} xi=(xi(1),x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值