利用AdaBoost元算法提高分类性能

最新推荐文章于 2024-07-18 23:59:01 发布

L60522

最新推荐文章于 2024-07-18 23:59:01 发布

阅读量328

点赞数

分类专栏：机器学习，AdaBoost算法文章标签：机器学习 AdaBoost算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/L60522/article/details/78739800

版权

机器学习，AdaBoost算法专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、

优点：泛化错误率降低，易编码，可以应用在大部分分类器上，无参数调整

缺点：对离群点敏感

使用数据类型：数值型和标称型数据

二、

1、元算法：对其他算法进行组合

不同算法集成、同一算法在不同设置下的集成、数据集不同部分分配给不同分类器之后的集成

2、算法比较：

bagging（自举汇聚法）：从原始数据集随机选择S次后得到S个新数据集，不同分类器是通过串行训练获得的，每个新分类器都根据已训练出来的分类器的性能来进行训练；分类器权重相等

boosting：通过关注被已有分类器错分的数据来获得新的分类器；分类器权重不相等，每个权重代表对应分类器在上一轮迭代中的成功度

三、

Adaboost算法运行过程：

1.赋予每个样本一个权重，这些权重构成向量D，初始时权重相等

2.在训练数据上训练出一个弱分类器并计算分类器错误率

3.计算该弱分类器权重α，重新调整样本权重D，分对的样本权重降低，分错的样本权重提高，重新训练分类器

4.重复训练和调整权重，直到错误率为0或弱分类器数目达到用户指定值

5.最终分类结果=各弱分类器的结果加权求和

其中，

错误率=未正确分类的样本数目/所有样本数目

分类器权重α=1/2*ln((1-错误率)/错误率)

分对的样本权重D（t+1）=D（t）exp(-α)/sum(D)

分错的样本权重D（t+1）=D（t）exp(α)/sum(D)

四、

1、非均衡分类问题：在分类器训练时正例数目和反例数目相差很大

可以基于代价函数来控制分类器决策，可以通过过抽样和欠抽样调节数据集中正例和反例的数目

2、除了错误率外还有其他一些分类性能度量指标：正确率、召回率、ROC曲线

正确率=TP/(TP+FP)，预测为正例的样本中实际为正例的比例

召回率=TP/(TP+FN)，实际为正例的结果中预测为正例的比例

假阳率=FP/(FP+TN)，实际为反例的结果中预测为正例的比例

真阳率=TP/(TP+FN)，实际为正例的结果中预测为正例的比例

ROC曲线：用于度量分类中的非均衡性，ROC(receiver operating characteristic)

给出的是当阈值变化时假阳率和真阳率的变化情况

对不同ROC曲线进行比较时，用AUC(areaunder the curve)评估，完美分类器的AUC为1.0，随机猜测的AUC为0.5

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
利用AdaBoost元算法提高分类性能

一、优点：泛化错误率降低，易编码，可以应用在大部分分类器上，无参数调整缺点：对离群点敏感使用数据类型：数值型和标称型数据二、1、元算法：对其他算法进行组合不同算法集成、同一算法在不同设置下的集成、数据集不同部分分配给不同分类器之后的集成2、算法比较：bagging（自举汇聚法）：从原始数据集随机选择S次后得到S个新数据集，不同分类器是通过串行训练获得的，
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。