摘要:
机器学习处理问题,我们关注的是Boosting方法和代表分类器adaboost。我们已经实现过一些分类算法了,组合结果就是集成方法或者元算法。算法可以不同,数据集合不同部分分给不同分类器集成。
训练算法:基于错误提升分类器性能
能够使用弱分类器和多个实例来构建强分类器?下面的实现是基于决策树构建的弱分类器。单层决策树是简单的决策树,仅仅基于单个特征来决策
但是由于单层决策树可以根据属性分类的属性值有限,那么可以使用多个单层决策树来构建。可以构建出队数据集完全正确分类的分类器
而具体的算法步骤如下:
def stumpClassify(dataMatrix,dimen,threshVal,threshIneq):
retArray = ones((shape(dataMatrix)[0],1))
if threshIneq=='lt':
retArray[dataMatrix[:,dimen]<=threshVal]=-1.0
else:
retArray[dataMatrix[:,dimen]>threshVal] =-1.0
return retArray
这个函数是对感觉属性阈值进行分类,而对于阈值对比的都是连续性的属性值
def buildStrump(dataArr,classLabels,D): dataMatrix = mat(dataArr);labelMat = mat(classLabels).T m,n = shape(dataMatrix) numSteps =10.0;bestStump={};bestClasEst = mat(zeros((m,1))) minError = inf for i in range(n): rangeMin = dataMatrix[:,i].min();rangeMax = dataMatrix[:,i].max(); stepSize = (rangeMax-rangeMin)/numSteps for j in range(-1,int(numSteps)+1): for in