统计学习方法第四章笔记——朴素贝叶斯

4.1 模型介绍

  模型的输入空间为 χRn n 维向量,输出空间为类标记集合y={c1,c2,ck} X 是定义在χ上的随机变量, Y 是定义在y上的随机变量, P(X,Y) X Y的联合分布,训练数据集 T={(x1,y1),(x2,y2),(xn,yn)} P(X,Y) 独立同分布产生。
  假设X各分量之间独立,根据贝叶斯公式则:

P(Y=ckX=x)=P(X=xY=ck)P(Y=ck)kP(X=x|Y=ck)P(Y=ck)

我们的目标是:
y=argmaxckP(Y=ckX=x)=argmaxckP(X=xY=ck)P(Y=ck)kP(X=x|Y=ck)P(Y=ck)

  分子对于任意 ck 相同,故:
y=argmaxckP(X=xY=ck)P(Y=ck)

  由此,我们的目标是根据数据估计 P(Y=ck) 以及 P(X=xY=ck)

4.2 后验概率最大化的意义

  朴素贝叶斯的损失函数是期望风险最小化:

L(Y,f(X))={1,0,Yf(X)Y=f(X)

其期望风险为:
R(f)=E[L(Y,f(X))]

但以上期望风险是联合概率的期望,条件期望如下:
R(f)=E[L(Y,f(X))P(ck|X)]

为使期望风险最小化,只需对 X=x 逐个优化:
f(X)=argminyKk=1L(ck,y)P(y=ck|X=x)

最后可得:
f(X)=argmaxyP(y=ck|X=x)

4.3 参数估计

  用极大似然估计的话,先估计 P(Y=ck) ,其结果即数据中含 Y=ck 的数量占总数据的比重。然后估计 P(X=xY=ck) ,其结果即在 Y=ck 数据中 X=x 者占总数目的比重。
  考虑到有的类别没有数据,可能出现概率为0(但实际概率不会为0,只不过很小罢了),则采用贝叶斯估计,其结果是分子加上常数 λ ,分子加上常数nλ,其中 n Y=ck X <script type="math/tex" id="MathJax-Element-1051">X</script>的类别数量。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值