xgb模型的参数,归一化

最新推荐文章于 2024-06-17 00:14:56 发布

huizxhhui1994

最新推荐文章于 2024-06-17 00:14:56 发布

阅读量4.9k

点赞数 1

分类专栏： python

本文链接：https://blog.csdn.net/huizxhhui1994/article/details/79188355

版权

python 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

这里要重点讲一下 Xgboost 的调参。通常认为对它性能影响较大的参数有：

eta：每次迭代完成后更新权重时的步长。越小训练越慢。
num_round：总共迭代的次数。
subsample：训练每棵树时用来训练的数据占全部的比例。用于防止 Overfitting。
colsample_bytree：训练每棵树时用来训练的特征的比例，类似 RandomForestClassifier 的 max_features。
max_depth：每棵树的最大深度限制。与 Random Forest 不同，Gradient Boosting 如果不对深度加以限制，最终是会 Overfit 的。
early_stopping_rounds：用于控制在 Out Of Sample 的验证集上连续多少个迭代的分数都没有提高后就提前终止训练。用于防止 Overfitting。

一般的调参步骤是：

将训练数据的一部分划出来作为验证集。
先将 eta 设得比较高（比如 0.1），num_round 设为 300 ~ 500。
用 Grid Search 对其他参数进行搜索
逐步将 eta 降低，找到最佳值。
以验证集为 watchlist，用找到的最佳参数组合重新在训练集上训练。注意观察算法的输出，看每次迭代后在验证集上分数的变化情况，从而得到最佳的 early_stopping_rounds。

X_dtrain, X_deval, y_dtrain, y_deval = cross_validation.train_test_split(X_train, y_train, random_state=1026, test_size=0.3)
dtrain = xgb.DMatrix(X_dtrain, y_dtrain)
deval = xgb.DMatrix(X_deval, y_deval)
watchlist = [(deval, 'eval')]
params = {
    'booster': 'gbtree',
    'objective': 'reg:linear',
    'subsample': 0.8,
    'colsample_bytree': 0.85,
    'eta': 0.05,
    'max_depth': 7,
    'seed': 2016,
    'silent': 0,
    'eval_metric': 'rmse'
}
clf = xgb.train(params, dtrain, 500, watchlist, early_stopping_rounds=50)
pred = clf.predict(xgb.DMatrix(df_test))

最后要提一点，所有具有随机性的 Model 一般都会有一个 seed 或是 random_state 参数用于控制随机种子。得到一个好的 Model 后，在记录参数时务必也记录下这个值，从而能够在之后重现 Model。

归一化：

1. MinMaxScaler(最小最大值标准化)

公式：X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0)) ;

X_scaler = X_std/ (max - min) + min

[python]view plain copy 
   
 #例子：将数据缩放至[0, 1]间。训练过程: fit_transform()  
 X_train = np.array([[1., -1., 2.], [2., 0., 0.], [0., 1., -1.]])  
 min_max_scaler = preprocessing.MinMaxScaler()   
 X_train_minmax = min_max_scaler.fit_transform(X_train)    
 #out: array([[ 0.5       ,  0.        ,  1.        ],   
 [ 1.        ,  0.5       ,  0.33333333],          
 [ 0.        ,  1.        ,  0.        ]])  
 #将上述得到的scale参数应用至测试数据  
 X_test = np.array([[ -3., -1., 4.]])    
 X_test_minmax = min_max_scaler.transform(X_test) #out: array([[-1.5 ,  0. , 1.66666667]])  
 #可以用以下方法查看scaler的属性  
 min_max_scaler.scale_        #out: array([ 0.5 ,  0.5,  0.33...])  
 min_max_scaler.min_         #out: array([ 0.,  0.5,  0.33...])  

2. MaxAbsScaler（绝对值最大标准化）

与上述标准化方法相似，但是它通过除以最大值将训练集缩放至[-1,1]。这意味着数据已经以０为中心或者是含有非常非常多０的稀疏数据。

[html]view plain copy 
   
 X_train = np.array([[ 1., -1.,  2.],  
                      [ 2.,  0.,  0.],  
                     [ 0.,  1., -1.]])  
 max_abs_scaler = preprocessing.MaxAbsScaler()  
 X_train_maxabs = max_abs_scaler.fit_transform(X_train)  
 # doctest +NORMALIZE_WHITESPACE^, out: array([[ 0.5, -1.,  1. ], [ 1. , 0. ,  0. ],       [ 0. ,  1. , -0.5]])  
 X_test = np.array([[ -3., -1.,  4.]])  
 X_test_maxabs = max_abs_scaler.transform(X_test) #out: array([[-1.5, -1. ,  2. ]])  
 max_abs_scaler.scale_  #out: array([ 2.,  1.,  2.])  fit_transform(partData)对部分数据先拟合fit，找到该part的整体指标，如均值、方差、最大值最小值等等（根据具体转换的目的），然后对该partData进行转换transform，从而实现数据的标准化、归一化等等。。

fit_transform(partData)对部分数据先拟合fit，找到该part的整体指标，如均值、方差、最大值最小值等等（根据具体转换的目的），然后对该partData进行转换transform，从而实现数据的标准化、归一化等等。。

必须先用fit_transform(partData)，之后再transform(restData)

huizxhhui1994

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
xgb模型的参数,归一化

这里要重点讲一下 Xgboost 的调参。通常认为对它性能影响较大的参数有：eta：每次迭代完成后更新权重时的步长。越小训练越慢。num_round：总共迭代的次数。subsample：训练每棵树时用来训练的数据占全部的比例。用于防止 Overfitting。colsample_bytree：训练每棵树时用来训练的特征的比例，类似 RandomF
复制链接

扫一扫

专栏目录