Bootstrapping算法主要思路:
i)重复地从一个样本集合D中采样n个样本
ii)针对每次采样的子样本集,进行统计学习,获得假设Hi
iii)将若干个假设进行组合,形成最终的假设Hfinal
iv)将最终的假设用于具体的分类任务
(2)Bagging算法主要思路:
i)训练分类器
从整体样本集合中,抽样n* < N个样本 针对抽样的集合训练分类器Ci
ii)分类器进行投票,最终的结果是分类器投票的优胜结果
这两个算法提供的主要是思路,真正的实用性是基于这两个算法思想的AdaBoost算法:
AdaBoost算法过程:
这就是Adaboost的结构,最后的分类器YM是由数个弱分类器(weak classifier)组合而成的,相当于最后m个弱分类器来投票决定分类,而且每个弱分类器的“话语权”α不一样。
skit-learnd一个例子如下:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.tree