分类-朴素贝叶斯

朴素贝叶斯算法是基于贝叶斯定理和特征条件独立性假设的分类方法。特征条件独立性是指咋给定样本类别的前提下,任一特征的取值与其他特征都不相关。虽然这一假设在很多场景下与现实不相符合,但是朴素贝叶斯却在相关的任务上有着较好的效果。它在文本分类、垃圾邮件过滤、情感分析等文本分析问题,医学诊断和推荐系统等领域得到了广泛应用。

贝叶斯定理

假设X,Y是一对随机变量,
它们的联合概率p(X=x,Y=y)是指X取值x且Y取值y的概率,
条件概率p(Y=y|X=x)是指变量X在取值X的情况下,变量Y取值y的概率。
联合概率和条件概率满足p(X,Y)=p(Y|X)·p(X)=p(X|Y)·p(Y)
进而得到贝叶斯定理 p ( Y ∣ X ) = p ( X ∣ Y ) ⋅ p ( Y ) p ( X ) p(Y|X)=\frac{p(X|Y)·p(Y)}{p(X)} p(YX)=p(X)p(XY)p(Y)
假设X代表样本,Y代表样本的类别标签.贝叶斯定理是一种把先验知识和从样本获取的证据相结合的统计原理.在贝叶斯公式中,p(Y)称为先验分布,p(X|Y)称为似然函数,p(X)称为证据,p(Y|X)称为后验分布.

朴素贝叶斯

设特征向量X= {X1,X2,…,Xm. …,Xd}是d维随机向量,类标签Y ∈{1,2… c},样本容量为n;
p(X,Y)是X和Y的联合概率分布;
贝叶斯算法通过学习联合概率分布,利用贝叶斯公式,计算后验概率分布;
先验概率分布为p(Y= k),k = 1,2,… . , c
条件概率分布 p(X|Y =k)=p(X1,……Xd|Y =k),k = 1,2,… . ,c
利用贝叶斯定理进行预测: p ( Y = k ∣ X ) = p ( X ∣ Y = k ) ⋅ p ( Y = k ) p ( X ) p(Y=k|X)=\frac{p(X|Y=k)·p(Y=k)}{p(X)} p(Y=kX)=p(X)p(XY=k)p(Y=k)
对于某一个样本X,p(X)取值固定,上述预测等价于
maxk p(X|Y=k)·p(Y=k)
如何简化p(X|Y=k)的计算(X是一个d维向量)?
条件独立性假设:
p(X|Y =k)=p(X1,X2,. … ,Xd|Y =k)
=p(X1|Y = k)p(X2|Y =k)…p(Xd|Y =k)
朴素贝叶斯分类器
在这里插入图片描述

参数估计

即估计先验概率分布p(Y= k)和条件概率分布p(Xm|Y =k),通常使用极大似然估计
先验概率p(Y= k)的极大似然估计是在这里插入图片描述
I(.)是指示函数,参数为真时取值为1,反之为0
估计条件概率分布时,考虑随机变量X的特征为离散或连续的情况
离散时,设Xn∈{1,2,…,s},条件概率分布p(Xn=s|Y =k)的极大似然估计为
在这里插入图片描述
当特征为连续变量时,有两种方法:
1.可以将连续变量离散化,人为设定离散区间,当连续特征离散化后,可利用上述方法估计条件概率分布
2.假设连续变量服从某种分布,然后用数据集训练此分布函数
高斯分布(正态分布)通常用来表示连续变量的概率分布;设分布的均值和方差分别为μ和σ2,对于某类Y=k,特征Xm的条件概率分布为
在这里插入图片描述
利用极大似然估计,可知样本均值和方差可作为μ和σ2的估计

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值