机器学习xgboost实战—手写数字识别 (DMatrix)





1、xgboost 安装


安装问题这里就不再做赘述,可参考前面写的博文:
http://blog.csdn.net/eddy_zheng/article/details/50184563

2、手写数字识别


这里先说明下,xgboost用作手写字符的分类效果并不是最好的,这里仅仅作为一个教学的实例。本文中用的数据集来自kaggle 的新手入门数字识别(https://www.kaggle.com/c/digit-recognizer),我用 xgboost 实现的准确率只有95%+(并未调参 ,可能并未得到最佳的效果)。用深度学习 CNN 来做,可以达到99%+。

在数据建模中,当我们有数个连续值特征时,Boosting分类器是最常用的非线性分类器。它将成百上千个分类准确率较低的树模型组合起来,成为一个准确率很高的模型。这个模型会不断地迭代,每次迭代就生成一颗新的树。然而,在数据集较大较复杂的时候,我们可能需要几千次迭代运算,这将造成巨大的计算瓶颈。xgboost正是为了解决这个瓶颈而提出。单机它采用多线程来加速树的构建,

因此,写这篇博文知识为了让初次使用xgboost的朋友能够更快的上手。

2.1数据获取

数据集放在这里了,下载对应的手写数字的 train.csv与test.csv。以后相关数据集都放到这里,持续更新:
http://blog.csdn.net/Eddy_zheng/article/details/50496194

2.2 代码实现

基于python实现的,代码阅读可能需要一点python的功底,不过关于xgboost的参数我都尽力做了解释,都是自己学习的见解,有不准确的地方大家可以指出,共同学习。当然要更深刻的理解参数,可以看看xgboost的理论推导,了解每个参数是怎么来的?用来做什么都的?
官方地址(http://xgboost.readthedocs.org/en/latest/parameter.html

#coding=utf-8
"""
Created on 2015/12/25
By Eddy_zheng
"""
import xgboost as xgb
import pandas as pd
import time 
import numpy as np


now = time.time()

dataset = pd.read_csv("../input/train.csv") # 注意自己数据路径

train = dataset.iloc[:,1:].values
labels = dataset.iloc[:,:1].values

tests = pd.read_csv("../input/test.csv") # 注意自己数据路径
#test_id = range(len(tests))
test = tests.iloc[:,:].values


params={
'booster':'gbtree',
# 这里手写数字是0-9,是一个多类的问题,因此采用了multisoft多分类器,
'objective': 'multi:softmax', 
'num_class':10, # 类数,与 multisoftmax 并用
'gamma':0.05,  # 在树的叶子节点下一个分区的最小损失,越大算法模型越保守 。[0:]
'max_depth':12, # 构建树的深度 [1:]
#'lambda':450,  # L2 正则项权重
'subsample':0.4, # 采样训练数据,设置为0.5,随机选择一般的数据实例 (0:1]
'colsample_bytree':0.7, # 构建树树时的采样比率 (0:1]
#'min_child_weight':12, # 节点的最少特征数
'silent':1 ,
'eta': 0.005, # 如同学习率
'seed':710,
'nthread':4,# cpu 线程数,根据自己U的个数适当调整
}

plst = list(params.items())

#Using 10000 rows for early stopping. 
offset = 35000  # 训练集中数据50000,划分35000用作训练,15000用作验证

num_rounds = 500 # 迭代你次数
xgtest = xgb.DMatrix(test)

# 划分训练集与验证集 
xgtrain = xgb.DMatrix(train[:offset,:], label=labels[:offset])
xgval = xgb.DMatrix(train[offset:,:], label=labels[offset:])

# return 训练和验证的错误率
watchlist = [(xgtrain, 'train'),(xgval, 'val')]


# training model 
# early_stopping_rounds 当设置的迭代次数较大时,early_stopping_rounds 可在一定的迭代次数内准确率没有提升就停止训练
model = xgb.train(plst, xgtrain, num_rounds, watchlist,early_stopping_rounds=100)
#model.save_model('./model/xgb.model') # 用于存储训练出的模型
preds = model.predict(xgtest,ntree_limit=model.best_iteration)

# 将预测结果写入文件,方式有很多,自己顺手能实现即可
np.savetxt('submission_xgb_MultiSoftmax.csv',np.c_[range(1,len(test)+1),preds],
                delimiter=',',header='ImageId,Label',comments='',fmt='%d')


cost_time = time.time()-now
print "end ......",'\n',"cost time:",cost_time,"(s)......"

2.3 测试训练模型

训练图示:
这里写图片描述

结果提交 kaggle 验证:
这里写图片描述

2.4总结

简单应用于手写字符分类识别,希望通过这个简单的应用,能够学习调试模型,达到举一反三的效果。

XGBoost 是一个强大的机器学习算法,它的性能和准确率在许多机器学习竞赛中都表现出色。为了获得最佳的性能和准确率,需要进行参数调优。 在 XGBoost 中,有许多可以调整的参数,包括学习率(learning rate)、树的深度(max_depth)、叶子节点最小权重(min_child_weight)等等。调整这些参数的最佳方法是使用交叉验证,以便确定最佳的参数组合。 以下是一些常用的参数调优方法: 1. 网格搜索:网格搜索是一种简单有效的参数调优方法。它通过在一组预定义的参数上进行交叉验证来确定最佳的参数组合。在 Python 中,可以使用 GridSearchCV 类来实现网格搜索。 2. 随机搜索:随机搜索是一种更高效的参数调优方法,它不需要在预定义的参数上进行搜索。相反,它随机选择一组参数,并在这组参数上进行交叉验证。在 Python 中,可以使用 RandomizedSearchCV 类来实现随机搜索。 3. 贝叶斯优化:贝叶斯优化是一种基于模型的参数调优方法,它可以利用先前的参数组合信息来确定下一个最佳参数组合。在 Python 中,可以使用 BayesianOptimization 库来实现贝叶斯优化。 在调整 XGBoost 参数时,要特别注意 DMatrix 类中的参数。DMatrixXGBoost 中用于存储数据的类,它接受许多参数,包括数据类型、缺失值标记和权重等。在 Python 中,可以将 Pandas DataFrame 转换为 DMatrix。 以下是一个简单的 XGBoost 参数调优示例: ``` import xgboost as xgb from sklearn.metrics import mean_squared_error from sklearn.datasets import load_boston from sklearn.model_selection import train_test_split import numpy as np # 加载数据集 boston = load_boston() X, y = boston.data, boston.target # 将数据集划分为训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=123) # 将数据集转换为 DMatrix 类型 dtrain = xgb.DMatrix(X_train, label=y_train) dtest = xgb.DMatrix(X_test, label=y_test) # 设置 XGBoost 参数 params = { 'max_depth': 3, 'eta': 0.1, 'objective': 'reg:squarederror' } # 训练模型 model = xgb.train(params, dtrain) # 预测测试集 y_pred = model.predict(dtest) # 计算均方误差 mse = mean_squared_error(y_test, y_pred) print("MSE: %.2f" % mse) ``` 在此示例中,我们使用了 XGBoost 的默认参数来训练模型。要进行参数调优,只需更改 params 字典中的参数值即可。 希望这对你有所帮助!
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值