朴素贝叶斯
朴素贝叶斯:对于给定的训练数据集,首先是基于特征条件独立假设学习输入输出的联合概率分布,然后基于此模型,对给定的输入x,利用朴素贝叶斯定理求出后验概率最大的输出y
p(A|B) = P(AB)/P(B) = P(B|A)P(A)/P(B)
![](https://img-blog.csdnimg.cn/img_convert/dff25f96a3d369fa62b09ad088531fd1.png)
![](https://img-blog.csdnimg.cn/img_convert/df391ac6fd387402a460c0f96f9fc67d.png)
![](https://img-blog.csdnimg.cn/img_convert/e0220d8c7d4173e999806fa2025771b2.png)
决策树
![](https://img-blog.csdnimg.cn/img_convert/48651d79675a95bb9e573f93a9870b80.png)
判断每个内部节点的特征选取时,用信息增益来判断
![](https://img-blog.csdnimg.cn/img_convert/a7a5b2e597dcb56647931a95f54b76ff.png)
![](https://img-blog.csdnimg.cn/img_convert/7b2302b4a87097ba06dd986685f852ea.png)
![](https://img-blog.csdnimg.cn/img_convert/4bee91283ee86a95ab7a4c7d4ee65af0.png)
给定训练数据集D与特征A,经验熵H(D)表示对数据集进行分类的不确定性。而经验条件熵H(D|A)表示在特征A给定的条件下对数据集D进行分类的不确定性。那么他们的差,即信息增益就表示由于特征A而使得对数据集D的分类的不确定性减小的程度。
例子
![](https://img-blog.csdnimg.cn/img_convert/7c34d2d32d0615cfb19e184057d0caeb.png)
![](https://img-blog.csdnimg.cn/img_convert/a7475683a4a90876d794e8db93e15b7e.png)
![](https://img-blog.csdnimg.cn/img_convert/7c2103a6346b5a7c4e2817b0ab5654ea.png)
选择信息增益熵最大的D3
信息增益的判断有时候不够准确,采用信息增益比进行判断
![](https://img-blog.csdnimg.cn/img_convert/55be9f22cbf964c3459fe5d324047926.png)
决策树的构建ID3算法
![](https://img-blog.csdnimg.cn/img_convert/cdd103a2ae73810ae7e46f2c27422a36.png)
决策树的构建C4.5算法,就是将ID3中使用的信息增益判断改为信息增益比
决策树的枝剪
当决策树过于复杂可能出现过拟合的状况,适当的对树枝剪可以减轻过拟合的状况
![](https://img-blog.csdnimg.cn/img_convert/4ac05ab7c746a4aa7760f27f907e0efd.png)
在损失函数的基础上加上一个正则项。α|T|,其中T表示节点的数目。
这样在即要求经验熵最小的同时还要考虑叶子节点的数目
后剪枝:先进行枝剪再比较Cα(T)判断是否进行枝剪
![](https://img-blog.csdnimg.cn/img_convert/f069925d90fcefb8eae17ff769c69f2c.png)
注意一点就是:在进行枝剪的时候,没有进行枝剪的一侧不影响Cα(T),只需要进行被枝剪部分的Cα(T)可以减小计算量
预剪枝:就是在构建树的时候,直接将正则项加入构造函数里,生成的树就不会太大
CART算法
仅用于学习