AdaBoost算法

最新推荐文章于 2021-11-17 23:09:06 发布

开心罗

最新推荐文章于 2021-11-17 23:09:06 发布

阅读量596

点赞数

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/luoru/article/details/53892712

版权

Machine Learning 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

AdaBoost算法

AdaBoost算法

算法概述

将不同分类器组合起来，这种组合结果被称为集成方法或者元算法。使用集成方法会有多种形式：可以是不同算法的集成，也可以是同一算法在不同设置下的集成，也可以是数据集不同部分分配给不同分类器之后的集成。boosting 是通过关注被已有分类器错分那些数据获得新的分类器，其中最流行的boosting算法为AdaBoost算法。

AdaBoost算法流程

算法描述

给定训练样本 $\left ( x_{1} ,y_{1}\right ),...\left ( x_{i} ,y_{i}\right )，...\left ( x_{m} ,y_{m}\right )$ 其中 $x_{i}$ 表示第 $i$ 个样本，表示为负样本，表示为正样本。 $m$ 为训练样本总数
初始化训练样本的权重( $\frac{1}{m}$ )
第一次循环，首先训练一个弱分类器，计算该分类器的错误率；更改阈值使得错误率最低，更行样本权重
经过T次循环，得到T个弱分类器，根据每个分类器正确分类的贡献作为权重进行加权组合，最后得到强分类器。

算法示意图

算法流程
训练了T个弱分类器

ht,t∈{1,...,T} $h_{t}, t\in \left \{ 1,..., T \right \}$ 。这些分类器很简单。大多数情况是只包含一次分裂的决策树。最后做决定的时候将赋值权重

αt $\alpha_{t}$ 给每个分类器。输入特征向量为

xi $x_{i}$ ，类别标签为

yi,i∈{1,..m} $y_{i},i\in \left\{1,..m \right\}$ ，且

yi∈{1,−1} $y_{i}\in\left\{1, -1 \right\}$ 。首先初始化样本全职

Dt(i) $D_{t}\left(i\right)$ 来告诉分类器将一个数据点分类错误的代价是多少。

$D_{1}\left(i\right)=1/m, i=1,...,m$
针对 $t=1,...,T$ :
a. 寻找是的权重为 $D_{t}\left(i\right)$ 的总错误最小的分类器 $h_{t}$
b.求 $h_{t}=argmin_{h_{j}\in H}\varepsilon_{j}$ ， $\varepsilon_{j}=\sum_{i=1}^mD_{t}\left(i\right)$ (其中 $y_{i}\neq h_{j}\left(x_{i}\right)$ )，如果最小错误满足 $\varepsilon<0.5$ 则继续；否则退出
c. 设置 $h_{t}$ 的权重 $\alpha_{t}=log[\left(1-\varepsilon_{t} \right)/\varepsilon_{t}]$ ，这儿 $\varepsilon_{t}$ 为步骤2b中的最小错误
d. 更新数据点权重: $D_{t+1}\left(i\right) = [D_{t}\left(i\right)e^{\left(-\alpha_{t}y_{i}h_{t}\left(x_{i}\right)\right)}]/Z_{t}$ ，这 $Z_{t}$ 将所有数据点权重归一化
算法结束后，最后的强分类器几首输入向量 $x$ ，使用所有弱分类器的加权和进行分类
$H (x) = s i g n (\sum t = 1 T α t h t (x))$ $H\left(x\right)=sign\left(\sum_{t=1}^T\alpha_{t}h_{t}\left(x\right)\right)$

示例代码

'''
Created on Dec 26th
Adaboost is short for Adaptive Boosting
@author: zfluo
'''
from numpy import *
def loadSimpData():
    datMat = matrix([[1., 2.1],
                    [2., 1.1],
                    [1.3, 1.],
                    [1., 1.],
                    [2., 1.]])
    classLabels = [1.0, 1.0, -1.0, -1.0, -1.0]
    return datMat, classLabels

# 构建单层决策树， lt: less than, gt: greater than
def stumpClassify(dataMatrix, dimen, threshVal, threshIneq):
    retArray = ones((shape(dataMatrix)[0], 1))
    if threshIneq == 'lt':
        retArray[dataMatrix[:, dimen] <= threshVal] = -1.0
    else:
        retArray[dataMatrix[:, dimen] > threshVal] = -1.0
    return retArray

# 寻找最优分支
def buildStump(dataArr, classLabels, D):
    dataMatrix = mat(dataArr)
    labelMat = mat(classLabels).T
    m, n = shape(dataMatrix)
    numSteps = 10.0; bestStump = {}; bestClasEst = mat(zeros((m, 1)))
    minError = inf
    for i in range(n):
        rangeMin = dataMatrix[:, i].min()
        rangeMax = dataMatrix[:, i].max()
        stepSize = (rangeMax - rangeMin)/numSteps
        for j in range(-1, int(numSteps) + 1):
            for inequal in ['lt', 'gt']:
                threshVal = (rangeMin + float(j)*stepSize)
                predictedVals = stumpClassify(dataMatrix, i, threshVal, inequal)
                errArr = mat(ones((m, 1)))
                errArr[predictedVals == labelMat] = 0
                weightedError = D.T*errArr
                # print('split: dim %d, thresh %.2f, thresh ineqal: %s, the weighted error is %.3f' %
                #       (i, threshVal, inequal, weightedError))
                if weightedError < minError:
                    minError = weightedError
                    bestClasEst = predictedVals.copy()
                    bestStump['dim'] = i
                    bestStump['thresh'] = threshVal
                    bestStump['ineq'] = inequal
    return bestStump, minError, bestClasEst

# AdaBoost训练
def adaBoostTrainDS(dataArr, classLabels, numIt = 40):
    weakClassArr = []
    m = shape(dataArr)[0]
    D = mat(ones((m, 1))/m)
    aggClassEst = mat(zeros((m,1)))
    for i in range(numIt):
        bestStump, error, classEst = buildStump(dataArr, classLabels, D)
        print('D:', D.T)
        alpha = float(0.5*log((1.0 - error)/max(error, 1e-16)))
        bestStump['alpha'] = alpha
        weakClassArr.append(bestStump)
        print('classEst: ', classEst.T)
        expon = multiply(-1*alpha*mat(classLabels).T, classEst)
        D = multiply(D, exp(expon))
        D = D/D.sum()
        aggClassEst += alpha*classEst
        print('aggClassEst: ', aggClassEst.T)
        aggErrors = multiply(sign(aggClassEst)!= mat(classLabels).T, ones((m, 1)))
        errorRate = aggErrors.sum()/m
        print('total error: ', errorRate, '\n')
        if errorRate == 0.0:
            break
    return weakClassArr, aggClassEst

# AdaBoost分类
def adaClassify(datToClass, classifierArr):
    dataMatrix = mat(datToClass)
    m = shape(dataMatrix)[0]
    aggClassEst = mat(zeros((m, 1)))
    for i in range(len(classifierArr)):
        classEst = stumpClassify(dataMatrix, classifierArr[i]['dim'], \
                                 classifierArr[i]['thresh'],  \
                                 classifierArr[i]['ineq'])
        aggClassEst += classifierArr[i]['alpha']*classEst
        print(aggClassEst)
    return sign(aggClassEst)

def loadDataSet(fileName):
    numFeat = len(open(fileName).readline().split('\t'))
    dataMat = []; labelMat = []
    fr = open(fileName)
    for line in fr.readlines():
        lineArr = []
        curLine = line.strip().split('\t')
        for i in range(numFeat - 1):
            lineArr.append(float(curLine[i]))
        dataMat.append(lineArr)
        labelMat.append(float(curLine[-1]))
    return dataMat, labelMat

# 绘制ROC曲线及AUC计算函数
def plotROC(preStrengths, classLabels):
    import matplotlib.pyplot as plt
    cur = (1.0, 1.0)
    ySum = 0.0
    numPosClas = sum(array(classLabels) == 1.0)
    yStep = 1/float(numPosClas)
    xStep = 1/float(len(classLabels) - numPosClas)
    sortedIndicies = preStrengths.argsort()
    fig = plt.figure()
    fig.clf()
    ax = plt.subplot(111)
    for index in sortedIndicies.tolist()[0]:
        if classLabels[index] == 1.0:
            delX = 0; delY = yStep
        else:
            delX = xStep; delY = 0
            ySum += cur[1]
        ax.plot([cur[0], cur[0] - delX], [cur[1], cur[1] - delY], c = 'b')
        cur = (cur[0] - delX, cur[1] - delY)
    ax.plot([0, 1], [0, 1], 'b--')
    plt.xlabel('False Positive Rate')
    plt.ylabel('True Positive Rate')
    ax.axis([0, 1, 0, 1])
    plt.show()
    print('the Area Under the Curve is:', ySum*xStep)

AdaBoost识别结果ROC曲线

算法特点

优点：泛化错误率低，易编码，适用于大部分分类器，误参数调整
缺点：对离群点敏感
使用数据类型：数值型和标称型

开心罗

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
AdaBoost算法

AdaBoost算法AdaBoost算法算法概述AdaBoost算法流程示例代码算法特点算法概述将不同分类器组合起来，这种组合结果被称为集成方法或者元算法。使用集成方法会有多种形式：可以是不同算法的集成，也可以是同一算法在不同设置下的集成，也可以是数据集不同部分分配给不同分类器之后的集成。boosting 是通过关注被已有分类器错分那些数据获得新的分类器，其中最流行的boosting算法为A
复制链接

扫一扫

专栏目录