徒手写代码之《机器学习实战》---adaboost算法(1)

adaboost理论部分(公式)后期补充

1.创建数据集

"""
此处不构建太复杂的数据集,不然可能后面用单层决策树时候,效果不好。
因为用任何一个单层决策树都无法完全分开这五个数据
"""
import numpy as np
def loadSimpData():
    datMat = np.matrix([[1,2.1],[2,1.1],[1.3,1],[1,1],[2,1]])
    classLabels = [1.0, 1.0, -1.0, -1.0, 1.0]
    return datMat,classLabels
loadSimpData()
(matrix([[1. , 2.1],
         [2. , 1.1],
         [1.3, 1. ],
         [1. , 1. ],
         [2. , 1. ]]), [1.0, 1.0, -1.0, -1.0, 1.0])

2.单层决策树生成函数

"""
单层决策树是一个很弱很弱的分类器,因为它只选择了一个特征就不继续选择了。
第一个函数stumpClassify()是通过阈值比较对数据进彳了分类的。
所有在阈值一边的数据会分到类别-i, 而在另外一边的数据分到类别+l。该函数可以通过数组过
滤来实现,首先将返回数组的全部元素设置为1 ,然后将所有不满足不等式要求的元素设置为-1。
可以基于数据集中的任一元素进行比较,同时也可以将不等号在大于、小于之间切换。
Parameters:
        dataMatrix - 数据矩阵
        dimen - 第dimen列,也就是第几个特征
        threshVal - 阈值
        threshIneq - 标志
Returns:
        retArray - 分类结果
"""
def stumpClassify(dataMatrix,dimen,threshVal,threshIneq):
     #初始化retArray为1
    retArray = np.ones((np.shape(dataMatrix)[0],1))  
    if threshIneq == 'lt':
        retArray[dataMatrix[:,dimen] <= threshVal] = -1.0#如果小于阈值,则赋值为-1
    else:
        retArray[dataMatrix[:,dimen] > threshVal] = -1.0#如果大于阈值,则赋值为-1
    return retArray



"""
buildStump()和三层for循环的详细解释《机器学习实战》书籍中写了。
此步骤利用单层决策树寻找到分类错误率最低的阈值即可。
Parameters:
        dataArr - 数据矩阵
        classLabels - 数据标签
        D - 样本权重
Returns:
        bestStump - 最佳单层决策树信息
        minError - 最小误差
        bestClasEst - 最佳的分类结果
"""
def buildStump(dataArr,classLabels,D):
    dataMatrix = np.mat(dataArr); labelMat = np.mat(classLabels).T
    m,n = np.shape(dataMatrix)
    numSteps = 10.0; bestStump = {
   }; bestClasEst = np.mat(np.zeros((m,1)))
    minError = float('inf')</
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值