机器学习理论知识部分——朴素贝叶斯

系列文章专栏以及精选文章

机器学习以及matlab和数据分析

机器学习聚类算法——BIRCH算法、DBSCAN算法、OPTICS算法_

机器学习——随机森林算法、极端随机树和单颗决策树分类器对手写数字数据进行对比分析_极端随机森林算法

文章目录

问题一、朴素贝叶斯是基于特征独立性假设的概率模型吗?

问题二、在机器学习当中,求特征的信息增益值的具体步骤

问题三、信息增益比作为决策树判别标准时,对可取值数目较多的特征有所偏好?

问题四、gart决策树可以有多个分支结构

问题五、高斯朴素贝叶斯假设离散特征的取值符合高斯分布?


前言

本文主要是对机器学习理论部分的讲解

问题一、朴素贝叶斯是基于特征独立性假设的概率模型吗?

朴素贝叶斯分类器是基于特征独立性假设的概率模型。具体来说,朴素贝叶斯分类器假设每个特征与其他特征都是独立的,也就是说,每个特征对于分类结果的影响是相互独立的。这个假设在实际应用中并不总是成立,但是在很多情况下,朴素贝叶斯分类器仍然能够取得很好的分类效果。

在朴素贝叶斯分类器中,对于一个给定的样本,我们需要计算它属于每个类别的概率,并选择概率最大的类别作为分类结果。具体来说,我们需要计算先验概率P(Y),即每个类别的概率,以及条件概率P(X|Y),即在给定类别的情况下,每个特征取不同值的概率。由于特征独立性假设,可以将条件概率表示为每个特征取值的概率的乘积,即:

P(X|Y) = P(X1|Y) * P(X2|Y) * ... * P(Xn|Y)

其中,X1、X2、...、Xn表示样本的n个特征。

然后,我们可以使用贝叶斯公式计算后验概率P(Y|X),即在给定样本的情况下,每个类别的概率,公式如下:

P(Y|X) = P(X|Y) * P(Y) / P(X)

其中,P(X)是归一化因子,可以表示为:

P(X) = Σ P(X|Y) * P(Y)

最终,我们选择后验概率最大的类别作为分类结果。

问题二、在机器学习当中,求特征的信息增益值的具体步骤

在机器学习中,求特征的信息增益值通常用于决策树算法中的特征选择。其具体步骤如下:

1. 计算数据集的熵。使用公式 $H(D)=-\sum_{i=1}^{n}p_i\log_2p_i$,其中 $n$ 表示数据集中类别的数量,$p_i$ 表示每个类别在数据集中的占比。

2. 对于每个特征 $A_i$,计算其对数据集的条件熵。使用公式 $H(D|A_i)=\sum_{j=1}^{m}\frac{|D_j|}{|D|}H(D_j)$,其中 $m$ 表示特征 $A_i$ 取值的数量,$|D_j|$ 表示特征 $A_i$ 取值为第 $j$ 个取值的样本数,$H(D_j)$ 表示特征 $A_i$ 取值为第 $j$ 个取值时所对应的数据集的熵。

3. 计算特征 $A_i$ 对数据集的信息增益值。使用公式 $Gain(A_i)=H(D)-H(D|A_i)$。

4. 选择信息增益值最大的特征作为当前节点的划分特征。

5. 重复上述步骤,直到所有样本都被正确分类或无法继续划分为止。

以上就是求特征的信息增益值的具体步骤。

问题三、信息增益比作为决策树判别标准时,对可取值数目较多的特征有所偏好?

是的,信息增益比作为决策树判别标准时,对可取值数目较多的特征有所偏好。信息增益比的计算公式为 $Gain\_ratio(A_i)=\frac{Gain(A_i)}{IV(A_i)}$,其中 $IV(A_i)$ 表示特征 $A_i$ 的固有值,$IV(A_i)=-\sum_{j=1}^{m}\frac{|D_j|}{|D|}\log_2\frac{|D_j|}{|D|}$。

固有值 $IV(A_i)$ 反映了特征 $A_i$ 可能的取值数目,可取值数目越多,$IV(A_i)$ 的值就越大。因此,在计算信息增益比时,分母中的 $IV(A_i)$ 会对信息增益比的大小产生影响,即对可取值数目较多的特征有所偏好,因为固有值越大,信息增益比越小,从而降低了该特征作为判断条件的优先级。

因此,在特征数目较多且可取值数目较多的情况下,使用信息增益比作为决策树判别标准可以更好地进行特征选择。

问题四、gart决策树可以有多个分支结构

GART(Generalized Additive Regression Trees,广义可加回归树)是一种决策树算法,它可以处理非线性关系。在GART决策树中,每个节点可以有多个分支结构,这些分支结构可以是线性或非线性的,这使得GART决策树可以更好地处理复杂的数据结构。

在传统的决策树算法中,每个节点只有两个分支,分别是“是”和“否”或“是”和“不是”。而在GART决策树中,每个节点可以有多个分支,每个分支对应一组线性或非线性关系,这些关系可以被组合成更复杂的决策规则,从而更好地描述数据的非线性关系。

在GART决策树中,每个节点的分支结构通常由广义可加模型(Generalized Additive Model,GAM)表示,GAM模型可以表示非线性关系,包括线性关系、多项式关系、指数关系等。因此,GART决策树可以更好地适应各种类型的数据,并生成更准确的预测结果。

问题五、高斯朴素贝叶斯假设离散特征的取值符合高斯分布?

不完全正确。高斯朴素贝叶斯假设连续特征的取值符合高斯分布,而不是离散特征。对于离散特征的取值,通常使用多项式朴素贝叶斯算法进行处理。

总结

以上就是今天的内容~

最后欢迎大家点赞👍,收藏⭐,转发🚀,
如有问题、建议,请您在评论区留言💬哦。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

张小鱼༒

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值