使用xgboost以及lgbm

梦想闹钟

已于 2023-03-21 16:05:12 修改

阅读量1.7k

点赞数 1

分类专栏：深度学习/自然语言处理文章标签：深度学习概率论机器学习

于 2021-09-24 08:38:48 首次发布

本文链接：https://blog.csdn.net/qq_43199509/article/details/120447321

版权

深度学习/自然语言处理专栏收录该内容

26 篇文章 5 订阅

订阅专栏

xgboost:
这里列举的代码，是一个对10分类结果进行预测，max_depth参数控制树的深度，objective控制的是训练的目标，multi:softprob即多分类预测概率，num_class为需要分类的类数。
这里输入的x的维度为n40000,输入的y的维度为n1,即y的每一行都是一个数字，0-9，代表所属的10分类
eval_metric这个参数指定的是训练的时候loss的类别。获得结果后，可以用predict方法获得分类的结果（1维标签，0-9），用predict_proba可以获得预测分类的概率（10维，分别代表10分类各自的概率）

from xgboost import XGBClassifier
import pickle
def xgboost(x, y):
    model = XGBClassifier(max_depth=25, objective='multi:softprob', num_class=10,n_estimators=1000)
    x_train, x_test_valid, y_train, y_test_valid = train_test_split(x, y, test_size=0.2, random_state=1)
    model.fit(x_train, y_train, early_stopping_rounds=10, eval_set=[(x_train, y_train), (x_test_valid, y_test_valid)],
              eval_metric="mlogloss", verbose=True)

    # make prediction
    preds = model.predict(x_test_valid)
    print(preds[0:10])
    prob_pre = model.predict_proba(x_test_valid)
    print(prob_pre[0:10])
    test_accuracy = accuracy_score(y_test_valid, preds)
    print("Test Accuracy: %.2f%%" % (test_accuracy * 100.0))
    if test_accuracy > 0.999:
        #保存代码
        pickle.dump(model, open("xgboostmodel2.pickle.dat", "wb"))

lgbm:和xbgoost的使用比较类似，需要注意的是在使用lgbm进行多分类时，使用predict方法输出的就是分类的预测概率，以0-9的10分类为例，lgbm的predict方法输出的就是10分类的预测概率，因此lgbm没有predict_proba方法，需要自己写函数将预测的结果转化成标签。此外，同样是多分类预测概率，lgbm里的objective

import pickle
from lightgbm import LGBMRegressor

def turn_prob_to_label(prob_data):
    # 将检测概率转化成一维数字标签
    prob_data = list(prob_data)
    result = []
    for each_data in prob_data:
        max_loc = list(each_data).index(max(list(each_data)))
        result.append(str(max_loc))
    return result


def lightgbm(x, y):
    model = LGBMRegressor(max_depth=30, objective='multiclass', num_class=10,n_estimators=1000)
    x_train, x_test_valid, y_train, y_test_valid = train_test_split(x, y, test_size=0.2, random_state=1)
    model.fit(x_train, y_train, early_stopping_rounds=30, eval_set=[(x_train, y_train), (x_test_valid, y_test_valid)],
              eval_metric="multi_error", verbose=True)

    preds = model.predict(x_test_valid)
    test_result = np.array(turn_prob_to_label(preds))
    print(test_result[0:10])
    print(y_test_valid[0:10])
    test_accuracy = accuracy_score(y_test_valid, test_result)
    print("Test Accuracy: %.2f%%" % (test_accuracy * 100.0))
    if test_accuracy > 0.999:
        pickle.dump(model, open("lgboostmodel2.pickle.dat", "wb"))
        # loaded_model = pickle.load(open("pima.pickle.dat", "rb"))

在训练完模型后，可以用pickle来保存和读取模型
如果训练效果不佳，可以主动用numpy的shuffle方法来打乱数组（类似于修改字典，不用返回值也能生效）

def shuffleData(data_x, data_y):
    """
    对输入的numpy数组进行手动打乱
    """
    np.random.seed(207)
    np.random.shuffle(data_x)
    np.random.seed(207)
    np.random.shuffle(data_y)

如果想要获取之前过程中的打印历史，可以通过evals_result_的方法来获取

history=self.model.fit(x_train, y_train,
                       eval_set=[(x_train, y_train), (x_test_valid, y_test_valid)],
                       eval_metric="multi_error")
print(history.evals_result_)

在更新后，lightGBM会提示early_stopping_rounds要被弃用了，要求换成callbacks传参的形式：

from lightgbm import log_evaluation, early_stopping
callbacks = [log_evaluation(period=100), early_stopping(stopping_rounds=30)]

其中period=100指每迭代100次打印一次log；stopping_rounds=30指如果验证集的误差在30次迭代内没有降低，则停止迭代。

部分参数选项

metric：
用于指定评估指标，可以传递各种评估方法组成的list。常用的评估指标如下：
‘mae’，用于回归任务，效果与 ‘mean_absolute_error’， ‘l1’ 相同。
‘mse’，用于回归任务，效果与 ‘mean_squared_error’， ‘l2’ 相同。
‘rmse’，用于回归任务，效果与 ‘root_mean_squared_error’， ‘l2_root’ 相同。
‘auc’，用于二分类任务。
‘binary’，用于二分类任务。
‘binary_logloss’，用于二分类任务。
‘binary_error’，用于二分类任务。
‘multiclass’，用于多分类。
‘multi_logloss’， 用于多分类。
‘multi_error’， 用于多分类。
seed / random_state 指定随机数种子


objective：指定目标可选参数如下：
“regression”，使用L2正则项的回归模型（默认值）。
“regression_l1”，使用L1正则项的回归模型。
“mape”，平均绝对百分比误差。
“binary”，二分类。
“multiclass”，多分类。
num_class用于设置多分类问题的类别个数。