机器学习之集成学习（五）boosting分类底层实现

最新推荐文章于 2022-08-09 22:11:53 发布

繁华三千东流水

最新推荐文章于 2022-08-09 22:11:53 发布

阅读量375

点赞数

分类专栏：机器学习算法思想及代码实现文章标签：机器学习集成学习 boosting分类

本文链接：https://blog.csdn.net/qq872890060/article/details/99815887

版权

boosting分类

该算法中有两个权重需要注意（带权学习）
一个是样本权重，分类正确的样本权重降低，分类错误的样本权证增加，以备下一轮训练更加关注分类错误的样本
一个是学习器的权重，分类效果好，误差率低的学习器权重加大，分类效果不好的学习器权重降低

数学思路

初始化样本权重，w = 1/m
计算误差率，E = sum(w[分类错误的权重])
通过误差率给予学习器一个新的权重，误差率低，权重高使用数据公式：
a = (1/2) * log((1-E)/E)
将 log((1-E)/E)展开是log(1/E)
通过学习器的权重更新每个样本的权重，前提是加一个规范因子，保证每次更新的权重w相加为1
规范因子：z = sum(we^(-a*y*h))。公式中y为实际类别，h为预测类别。若h与y相同则括号中只剩-a，we^-a，权重相应减小，若y和h不同，则w*e^a，权重相应增大。规范因子是权重和。
更新样本权重
w = w*e^(-a*y*h)/z
最后将所有学习器带权组合：res = sum(ai * hi)

代码实现

import pandas as pd
import numpy as np
from sklearn.tree import DecisionTreeClassifier
df = pd.DataFrame([[0,1],[1,1],[2

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

繁华三千东流水

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习之集成学习（五）boosting分类底层实现

该算法中有两个权重需要注意（带权学习）
复制链接

扫一扫

专栏目录

机器学习五基于adaboost模型实现对mnist数据集的分类

凌阳的博客

03-26

912

原理分析：代码分析： 1.初始化数据 ①对data数据转化为0-1浮点型进行归一化处理 ②将label值进行二值化 2.对Adaboost模型进行训练（1）创建提升树通过创建每层提升树，迭代50次，计算当前层的alpha得到每层的预测结果，并更新D ①创建单层提升树 curTree = createSigleBoosti..

boosting系列算法

热门推荐

jingshuiliushen_zj的博客

10-25

2万+

boosting是一种集成学习算法，由一系列基本分类器按照不同的权重组合成为一个强分类器，这些基本分类器之间有依赖关系。包括Adaboost算法、提升树、GBDT算法。一、Adaboost算法 1、基本思想通过两个问题： 1）如何更新样本权重D? 提高被弱分类器错分样本的权值，降低正分样本的权值，作为下一轮基本分类器的训练样本。 2）如何将弱分类器组合成强分类器？加权多数表决，误差率小的分...

参与评论您还未登录，请先登录后发表或查看评论

通俗易懂理解——条件随机场CRF

木东的博客

01-29

2001

https://mp.weixin.qq.com/s?__biz=MzIyNzE5NjExMA==&mid=2651342812&idx=1&sn=2f74c852200d6868f68a2f05ba561ac8&chksm=f3980a7dc4ef836b764c7ad2bab7c92e696074af43efa2a6be03d686fcec0a4a91a05a116b38&scene=178&cur_album_id=1381650339941761024

【干货】集成学习原理总结

wzk4869的博客

08-09

3266

【干货】集成学习原理总结

[机器学习实验4]正则化（引入惩罚因子）

gyh_420的博客

09-03

1万+

数据下载链接： http://openclassroom.stanford.edu/MainFolder/courses/MachineLearning/exercises/ex5materials/ex5Data.zip 本次实验的主要目的是了解引入的正则化参数对拟合效果的影响，通过调整该参数来解决过拟合和欠拟合的问题。线性回归中引入正则化参数。 x再线性回归的实践中是一维的，如果是更高维度

机器学习中L1,L2正则化项

weixin_34290096的博客

03-12

199

搞过机器学习的同学都知道，L1正则就是绝对值的方式，而L2正则是平方和的形式。L1能产生稀疏的特征，这对大规模的机器学习灰常灰常重要。但是L1的求解过程，实在是太过蛋疼。所以即使L1能产生稀疏特征，不到万不得已，我们也还是宁可用L2正则，因为L2正则计算起来方便得多。。。正则化项不应该以正则化的表面意思去理解，应该翻译为规则化才对！一般回归分析中回归ww表示特征的系数，从上式可以看到正则化...

机器学习-集成学习之AdaBoosting

Roswell的博客

08-03

1917

第一次写博客,在机器学习的过程中CSDN上的博客帮助了我很多,在这里我也想分享下我对其中一些问题的看法。更重要的是想着在这里可以记录下点自己学习的过程,回过头来说不定也是美好的回忆 集成学习(ensemble learning) 集成学习指的,通过构建并结合多个学习器拉来完成学习任务. 个体与集成 集成学习的一般结构为：先产生一组个体学习器，再用某种策略将它们结合在一起。上图中,若...

The Evolution of Boosting Algorithms From Machine Learning

03-17

Boosting算法起源于机器学习领域，其基本思想是通过组合多个弱分类器来提升预测的准确性。随着时间的推移，这种概念被引入到统计建模中，现在广泛应用于统计回归模型中的预测效应估计和选择。本文旨在回顾Boosting...

Python-MLEnsemble高性能集成学习

08-09

Scikit-learn是Python中最受欢迎的机器学习库之一，提供了多种机器学习算法，如分类、回归、聚类等，并且具有良好的可扩展性和用户友好性。它的高级API允许用户通过简单的接口快速构建和评估模型，而无需深入理解...

机器学习作业 python实现.zip

最新发布

02-21

在本压缩包“机器学习作业 python实现.zip”中，我们可以推测其内容主要涉及使用Python编程语言进行机器学习的实践项目。Python是目前数据科学、机器学习领域广泛采用的编程语言，因为它具有丰富的库和简洁的语法，...

bimmel:比勒费尔德机器学习库

05-22

Bimmel库就是这些优点的具体体现，它将复杂的机器学习算法封装成易于使用的API，使得开发者无需深入了解底层算法的细节，就能快速构建起机器学习模型。 Bimmel库可能包含以下关键模块和功能： 1. 数据预处理：...

MachineLearning_python3:Python3机器学习笔记和代码

03-05

6. **模型优化**：可能涉及特征选择、正则化、集成学习（如bagging、boosting）等方法来提高模型的泛化能力。 7. **模型部署**：将训练好的模型部署到生产环境，例如，使用Flask或Django构建Web服务。在"Machine...

集成算法学习（3）-Boosting(GBDT分类)（举例说明，通俗易懂）

我不爱机器学习的博客

01-06

1277

通过前面两贴Bagging、Boosting(AdaBoost)原理与公式推导和Boosting(GBDT回归)（举例说明，通俗易懂）对GBDT有了大致了解，这帖就来讲一讲GBDT分类。 GBDT分类是对类别变量进行分类。还是通过例子了解。 1、案例讲解总共有 6 个样本，每个样本有三个属性Likes Popcorn，Age，Favorite Color，对每个样本是否Loves ...

机器学习之集成学习（三）Boosting回归算法实现

繁华三千东流水不舍昼夜的博客

08-17

4838

集成学习是训练一系列学习器，并使用某种结合策略把各个学习结果进行整合，从而获得比单个学习器更好的学习效果的一种方法。如果把单个学习器比作一个决策者的话，集成学习的方法就相当于多个决策者共同进行一项决策。集成模型不是单独的ML模型，而是通过先构建后结合多个ML模型来完成学习任务

AdaBoost算法和java实现

03-07

474

算法描述输入：训练数据集,其中xi∈χ⊆Rn,yi∈{-1,+1};弱学习算法；输出：最终分类器G(x)。初始化训练集数据的权值分布 D1=(w11,…,wiN), w1i=1/N, i=1,2…,N 对m=1,2,…,M (a)使用具有权值分布Dm的训练数据集学习，得到基本分类器 Gm(x):χ−−>{-1,+1} (b) 计算Gm(x

机器学习 - 线性回归算法原理

weixin_43673156的博客

02-18

794

线性回归算法原理的梳理过程概念 1.有监督 2.线性 3.模型函数 import numpy as np import matplotlib.pyplot as plt 数据预处理的过程 x = np.array([4, 3, 3, 4, 2, 2, 0, 1, 2, 5, 1, 2, 5, 1, 3]) y = np.array([8, 6, 6, 7, 4, 4, 2, 4, 5, 9, 3, 4, 8, 3, 6]) m = len(x)#获取样本的数量 #x增加一列1 x = np.c_

基于不同分类器的boosting算法实现

喵喵喵

04-29

558

原文链接这篇文章主要讲的是分类，采用的分类器属于强分类器，有随机森林（RandomForestClassifier）、xgb（xgboost）、决策树（DecisionTreeClassifier）、逻辑斯特回归（LogisticRegression）以及梯度下降boost（GradientBoostingClassifier），目的是实验强分类器的集成对结果的精度是否有所提高。作者：jin_...

bagging和boosting(python代码实现)

程松

05-16

1万+

分类算法很多，有的效果比较好，有的效果稍微差点。这里还有一种“新”分类算法，就是把多个分类器组合成一个分类器，主要有bagging 和boosting两种。 bagging算法：从原始数据中随机抽取n个样本，重复s次，于是就有个s个训练集，每个训练集都可以训练出一个分类器，最终生成s个分类器，预测结果将有这些分类器投票决定（选择分类器投票结果中最多的类别作为最后预测结果）。代表的有随机森林。

【量化课堂】Boosting 介绍和 Python 实现【记录我的学习】

一只老母猪Cow的博客

04-04

2128

一面兴奋进来、看到公式到结束一面懵逼出去、还没理解完全部，加油咯。。。引言：Boosting 是一种集成算法，经常使用决策树（decision tree）作为基础分类器，有些 Boosting 模型也用逻辑回归（logistic regression），SVM 等方法做分类器的，倘若读者初学机器学习，学习这部分时建议补完决策树的相关知识，帮助理解。本文主要用 Boosting 的始祖算法 ...

"Udacity机器学习：集成学习课件精要

机器学习的集成学习是通过将多个学习器结合起来完成学习任务的一种方法。这些学习器可以是同一种类型的（如决策树集成）或是不同类型的（如决策树和神经网络）。每个基算法单独进行预测，最终的结果由所有基算法进行...