8.1
题目:
某公司招聘职员考查身体、业务能力、发展潜力这3项.身体分为合格1、不合格0两级,业务能力和发展潜力分为上1、中2、下3三级.分类为合格1、不合格-1两类.已知10个人的数据,如下表所示.假设弱分类器为决策树桩.试用AdaBoost算法学习一个强分类器.
解答:
考虑计算量,本题就不手算了。AdaBoost的代码参考《机器学习实战》相关部分。
先放一张样本的散点图。
具体代码:
# -*-coding:utf-8 -*-
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits import mplot3d
def loadSimpData():
"""
创建单层决策树的数据集
Parameters:
无
Returns:
dataMat - 数据矩阵
classLabels - 数据标签
"""
dataMat = np.matrix([[0., 1., 3.],
[0., 3., 1.],
[1., 2., 2.],
[1., 1., 3.],
[1., 2., 3.],
[0., 1., 2.],
[1., 1., 2.],
[1., 1., 1.],
[1., 3., 1.],
[0., 2., 1.]])
classLabels = np.matrix([-1.0, -1.0, -1.0, -1.0, -1.0, -1.0, 1.0, 1.0, -1.0, -1.0])
return dataMat, classLabels
def showDataSet(dataMat, labelMat):
"""
数据可视化
Parameters:
dataMat - 数据矩阵
labelMat - 数据标签
Returns:
无
"""
ax = plt.axes(projection='3d')
data_plus = [] #正样本
data_minus = [] #负样本
labelMat = labelMat.T #label矩阵转置
#将数据集分别存放到正负样本的矩阵
for i in range(len(dataMat)):
if labelMat[i] > 0:
data_plus.append(dataMat[i])
else:
data_minus.append(dataMat[i])
data_plus_np = np.array(data_plus) #转换为numpy矩阵
data_minus_np = np.array(data_minus) #转换为numpy矩阵
ax.scatter(np.transpose(data_plus_np)[0], np.transpose(data_plus_np)[1], np.transpose(data_plus_np)[2], c='r') #正样本散点图
ax.scatter(np.transpose(data_minus_np)[0], np.transpose(data_minus_np)[1], np.transpose(data_minus_np)[2], c='b') #负样本散点图
plt.show()
def stumpClassify(dataMatrix, dimen, threshVal, threshIneq):
"""
单层决策树分类函数
Parameters:
dataMatrix - 数据矩阵
dimen - 第dimen列,也就是第几个特征
threshVal - 阈值
threshIneq - 标志
Returns:
retArray - 分类结果
"""
retArray = np.ones((np.shape(dataMatrix)[0], 1)) # 初始化retArray为1
if threshIneq == 'lt':
retArray[dataMatrix[:, dimen] <= threshVal] = -1.0 # 如果小于阈值,则赋值为-1
else:
retArray[dataMatrix[:, dimen] > threshVal] = -1.0 # 如果大于阈值,则赋值为-1
return retArray
def buildStump(dataArr, classLabels, D):
"""
找到数据集上最佳的单层决策树
Parameters:
dataArr - 数据矩阵
classLabels - 数据标签
D - 样本权重
Returns:
bestStump - 最佳单层决策树信息
minError - 最小误差
bestClasEst - 最佳的分类结果
"""
dataMatrix = np.mat(dataArr)
labelMat = np.mat(classLabels).T
m, n = np.shape(dataMatrix)
numSteps = 10.0
bestStump = {}
bestClasEst = np.mat(np.zeros((m, 1)))
minError = float('inf') # 最小误差初始化为正无穷大
for i in range(n): # 遍历所有特征
rangeMin = dataMatrix[:, i].min()
rangeMax = dataMatrix[:, i].max() # 找到特征中最小的值和最大值
stepSize = (rangeMax - rangeMin) / numSteps # 计算步长
for j in range(-1, int(numSteps) + 1):
for inequal in ['lt', 'gt']: # 大于和小于的情况,均遍历。lt:less than,gt:greater than
threshVal = (rangeMin + float(j) * stepSize) # 计算阈值
predictedVals = stumpClassify(dataMatrix, i, threshVal, inequal) # 计算分类结果
errArr = np.mat(np.ones((m, 1))) # 初始化误差矩阵
errArr[predictedVals == labelMat] = 0 # 分类正确的,赋值为0
weightedError = D.T * errArr # 计算误差
print("split: dim %d, thresh %.2f, thresh ineqal: %s, the weighted error is %.3f" % (
i, threshVal, inequal, weightedError))
if weightedError < minError: # 找到误差最小的分类方式
minError = weightedError
bestClasEst = predictedVals.copy()
bestStump['dim'] = i
bestStump['thresh'] = threshVal
bestStump['ineq'] = inequal
return bestStump, minError, bestClasEst
def adaBoostTrainDS(dataArr, classLabels, numIt=40):
"""
完整决策树训练
Parameters:
dataArr - 数据矩阵
classLabels - 数据标签
numIt - 默认迭代次数
Returns:
weakClassArr- 完整决策树信息
aggClassEst- 最终训练数据权值分布
"""
weakClassArr = []
m = np.shape(dataArr)[0]
D = np.mat(np.ones((m, 1)) / m) # 初始化权重
aggClassEst = np.mat(np.zeros((m, 1)))
for i in range(numIt):
bestStump, error, classEst = buildStump(dataArr, classLabels, D) # 构建单层决策树
print("D:", D.T)
alpha = float(0.5 * np.log((1.0 - error) / max(error, 1e-16))) # 计算弱学习算法权重alpha,使error不等于0,因为分母不能为0
bestStump['alpha'] = alpha # 存储弱学习算法权重
weakClassArr.append(bestStump) # 存储单层决策树
print("classEst: ", classEst.T)
expon = np.multiply(-1 * alpha * np.mat(classLabels).T, classEst) # 计算e的指数项
D = np.multiply(D, np.exp(expon))
D = D / D.sum() # 根据样本权重公式,更新样本权重
# 计算AdaBoost误差,当误差为0的时候,退出循环
aggClassEst += alpha * classEst
print("aggClassEst: ", aggClassEst.T)
aggErrors = np.multiply(np.sign(aggClassEst) != np.mat(classLabels).T, np.ones((m, 1))) # 计算误差
errorRate = aggErrors.sum() / m
print("total error: ", errorRate)
if errorRate == 0.0:
break # 误差为0,退出循环
return weakClassArr, aggClassEst
if __name__ == '__main__':
dataArr, classLabels = loadSimpData()
#showDataSet(dataArr, classLabels)
weakClassArr, aggClassEst = adaBoostTrainDS(dataArr, classLabels)
print(weakClassArr)
print(aggClassEst)
得到最终的分类器为:
[{'dim': 0, 'thresh': -0.1, 'ineq': 'gt', 'alpha': 0.6931471805599453}, {'dim': 1, 'thresh': 1.0, 'ineq': 'gt', 'alpha': 0.7331685343967135}, {'dim': 2, 'thresh': 1.0, 'ineq': 'gt', 'alpha': 0.49926441505556346}, {'dim': 0, 'thresh': 0.0, 'ineq': 'lt', 'alpha': 0.5815754049028404}, {'dim': 0, 'thresh': -0.1, 'ineq': 'gt', 'alpha': 0.5319130862913471}, {'dim': 2, 'thresh': 2.0, 'ineq': 'gt', 'alpha': 0.5454786561898411}]
最终训练数据权值分布:
[[-2.11821021]
[-1.49506113]
[-1.33043916]
[-0.9550594 ]
[-2.42139647]
[-1.0272529 ]
[ 0.13589791]
[ 1.13442674]
[-0.33191033]
[-1.49506113]]
8.2
题目:
比较支持向量机、AdaBoost、的学习策略与算法.
解答:
支持向量机:
(1)学习策略:极小化正则化合页损失,最大间隔法
(2)算法:序列最小最优化算法
AdaBoost:
(1)学习策略:极小化加法模型的指数损失
(2)算法:前向分步加法算法
逻辑斯谛回归模型:
(1)学习策略:极大对数似然函数,正则化的极大似然估计
(2)算法:改进的迭代尺度算法,梯度下降,拟牛顿