特征集的贝叶斯误差及贝叶斯最优化分类器

特征集的贝叶斯误差及贝叶斯最优化分类器

贝叶斯误差,在特征分布确定(一般没法知道)的情况下,描述了模型所能达到的最好分类结果;在模型拟合能力完美的情况下,衡量了当前采样特征集对真实特征分布的采样误差(不确定是不是可以用这个词)。

贝叶斯误差

Wiki定义:贝叶斯误差(bayes error rate)是指在现有特征集上,任意可以基于特征输入进行随机输出的分类器所能达到最小误差。也可以叫做最小误差。

直观上可以这么理解,贝叶斯误差是在给定特征集的情况下,假设数据无限(且准确),依靠统计所能得到的最小误差。它是我们通过增加数据集/优化数据集分布/提升模型学习能力/防止过拟合等等措施后所能达到的误差下限。如果当前算法已经能达到接近贝叶斯误差的误差,则在不动特征(数据)的前提下我们已经没有继续优化的意义了。

我的理解,产生贝叶斯误差有几点原因:1,特征集规模有限,不足以描述真实分布。2,模型输出的是唯一分类结果。例如,假设真实世界中90%长发为女性,10%为男性(这是已知的真实分布);已知一人是发长,预测性别。由于只能预测男/女。此时即使你知道真实分布,预测为女,也会有10%的误差。这就是贝叶斯误差。

贝叶斯最优分类器

下面描述了单个样本X,被分类为Ci所产生的期望损失。根据其真实类别Cj,期望损失计算公式:
在这里插入图片描述
其中后验概率P(c |x)难以直接获得,所以机器学习所实现的是基于有限特征集,尽可能准确地估计后验概率。

参考:https://www.zhihu.com/question/263546637
https://zhuanlan.zhihu.com/p/42991859

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值