目录
Bagging
自助聚集(bootstrap aggregation )。将数据分成很多的子集,然后随机选取一些,用简单的模型去训练,再选择一些数据用另外一个简单的模型去训练……最后将所有的简单模型连接起来,连接的方式可以用投票的方式等,最后完成所有数据的训练。
AdaBoost
自适应增强算法。第一次分类,分完之后惩罚那些错误的点,然后增加被惩罚点的大小,
数据权重
小例子:最开始左右点的权重是1,第一次分类,分类正确的点总权重是7,错误的是3,按照50:50的比例,将错误的点的权重变成7/3;第二次分类 ,正确的是11,错误的是3,错误的点的权重变成11/3。
权重公式:,这个公式可以变形,就是:正确的点 / 错误的点,然后再取对数。
如下图这种极端模型,几乎不可能发生,没什么可担心的,但是为了一致性检查,仍然有必要,来分如下这种极端案例。
集合模型
下图的做法,把右侧的三张图放到左侧图片中,对应的位置天上数字,图与图之间用加班做运算。
slearn中的Adaboost
>>> from sklearn.ensemble import AdaBoostClassifier
>>> model = AdaBoostClassifier()
>>> model.fit(x_train, y_train)
>>> model.predict(x_test)
超参数
当我们定义模型时,我们可以确定超参数。在实际操作中,最常见的超参数为:
base_estimator
: 弱学习器使用的模型(切勿忘记导入该模型)。n_estimators
: 使用的弱学习器的最大数量。
比如在下面的例子中,我们定义了一个模型,它使用 max_depth 为 2 的决策树作为弱学习器,并且它允许的弱学习器的最大数量为 4。
>>> from sklearn.tree import DecisionTreeClassifier
>>> model = AdaBoostClassifier(base_estimator = DecisionTreeClassifier(max_depth=2), n_estimators = 4)
相关学习资源
AdaBoost 的优秀资源: