目录
Bagging算法(Bootstrap Aggregating)
Bagging(Bootstrap Aggregating)算法是建立在一种随机抽样的基础之上的,这种随机抽样叫Boostrap Sample,自助抽样,有的地方也叫自助法。所以介绍Bagging算法之前需要介绍Bootstrap抽样。
Bootstrap抽样
Bootstrap抽样是一种样本抽样方法。抽样指的是从一个样本数据集中随机选取一些样本,形成一个新的样本集。通常抽样分为有放回抽样和无放回抽样两类。有放回抽样指的是一个样本被选取之后会放回去,下次抽样时还有机会被抽中,这种方法形成的新的样本集可能含有相同的样本。无放回抽样指的是一个样本被抽中之后就从样本中去除,下次不会被抽中,这种方法形成的新的样本集中个样本都不相同。Bootstrap抽样就属于有放回抽样。Bootstrap抽样的做法是从m个样本中有放回地抽取m个样本作为新的样本集。
这里有个问题我们比较感兴趣:当样本集很大时,也就是m很大,最后形成m个新的样本集后,大概有多少个样本没有被抽中呢?事实上,每一次从m个样本中抽取一个样本时,每个样本被抽中的概率是,不被抽中的概率是,因为抽取m次之间是相互独立的,所以m次抽取中,每个样本不被抽中的概率就是