西瓜书笔记——贝叶斯分类器(一)

贝叶斯分类器

贝叶斯判定准则:对每个样本x,选择能使后验概率P(c | x) 最大的类别标记

然而,在现实任务中这通常难以直接获得,所以机器学习所要实现的是基于有限训练样本集尽可能准确地估计出后验概率P(c | x)

策略通常有如下两种:
给定x,可通过直接建模P(c | x) 来预测c,这样得到的是判别式模型。(如决策树、BP神经网络、支持向量机)
也可先对联合概率分布P(c ,x) 建模,然后再由此获得P(c | x) ,这样得到的是生成式模型。

朴素贝叶斯分类器

核心思想:根据“确定分类标签的前提下,得到样本x的概率”进行判断是哪一个类。

平滑处理(smoothing):如果训练样本中“好瓜”里没有出现“青绿瓜”,那么P(青绿|好)=0,即使其他特征都倾向于“好瓜”,那么最终的(连乘)结果也会等于0。所以需要进行平滑处理,进行拉普拉斯修正。

拉普拉斯修正:N代表一共有多少个分类,c是其中一个

P ( c ) = ∣ D c ∣ + 1 ∣ D ∣ + N P\left ( c \right ) = \frac{\left | D_c \right |+1}{\left | D \right |+N} P(c)=D+NDc+1

现实任务中朴素贝叶斯分类器有多种使用方式:
1.对速度有要求,预训练好然后直接查表
2.数据流动性大,进行“懒惰学习”先不进行任何训练,待收到预测请求时再根据当前数据集进行概率估值

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
贝叶斯分类算法是一种基于贝叶斯定理的统计算法,常用于文本分类、垃圾邮件过滤和数据挖掘等任务中。在对wine数据集进行分类时,我们可以使用贝叶斯分类算法。 首先,我们需要了解wine数据集的特征和标签。根据数据集的描述,wine数据集包含了一些葡萄酒的化学分析结果作为特征,以及该葡萄酒所属的类别作为标签。这些特征可以包括酒精含量、苹果酸含量、灰分含量等。 贝叶斯分类算法的核心思想是基于训练集计算每个类别的先验概率和条件概率,然后使用贝叶斯定理来计算给定特征时,每个类别的后验概率,最终选择后验概率最大的类别作为预测结果。 为了使用贝叶斯分类算法对wine数据集进行分类,我们需要进行以下步骤: 1. 数据预处理:对原始数据进行清洗和处理,包括去除缺失值、标准化特征等。 2. 特征选择:根据具体问题的要求,选择合适的特征来训练模型,可以使用相关性分析等方法进行特征选择。 3. 训练模型:将数据集分成训练集和测试集,使用训练集来计算每个类别的先验概率和条件概率。 4. 预测分类:对测试集中的每个样本,根据贝叶斯定理计算该样本属于每个类别的后验概率,选择后验概率最大的类别作为预测结果。 5. 模型评估:使用测试集评估模型的性能,可以使用准确率、精确率、召回率等指标来评估模型的好坏。 贝叶斯分类算法的优点是简单、直观,能够处理多分类问题和高维数据。然而,贝叶斯分类算法也有一些限制,例如对特征之间的关联性要求较高,对输入的先验概率分布有一定假设等。 在应用贝叶斯分类算法对wine数据集进行分类时,我们需要根据具体情况选择适合的特征和合适的先验分布,对模型进行调优,以获得更好的分类结果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值