task3 参数调优#Data Whale AI夏令营

最新推荐文章于 2024-09-15 17:22:56 发布

k_3911

最新推荐文章于 2024-09-15 17:22:56 发布

阅读量184

点赞数 1

文章标签：人工智能机器学习

本文链接：https://blog.csdn.net/k_3911/article/details/140576492

版权

这里我们先给出原来的代码

import numpy as np
import pandas as pd
import lightgbm as lgb
from sklearn.metrics import mean_squared_log_error, mean_absolute_error, mean_squared_error
import tqdm
import sys
import os
import gc
import argparse
import warnings
warnings.filterwarnings('ignore')

train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')

# 合并训练数据和测试数据，并进行排序
data = pd.concat([test, train], axis=0, ignore_index=True)
data = data.sort_values(['id','dt'], ascending=False).reset_index(drop=True)

# 历史平移
for i in range(10,30):
    data[f'last{i}_target'] = data.groupby(['id'])['target'].shift(i)
    
# 窗口统计
data[f'win3_mean_target'] = (data['last10_target'] + data['last11_target'] + data['last12_target']) / 3

# 进行数据切分
train = data[data.target.notnull()].reset_index(drop=True)
test = data[data.target.isnull()].reset_index(drop=True)

# 确定输入特征
train_cols = [f for f in data.columns if f not in ['id','target']]

def time_model(lgb, train_df, test_df, cols):
    # 训练集和验证集切分
    trn_x, trn_y = train_df[train_df.dt>=31][cols], train_df[train_df.dt>=31]['target']
    val_x, val_y = train_df[train_df.dt<=30][cols], train_df[train_df.dt<=30]['target']
    # 构建模型输入数据
    train_matrix = lgb.Dataset(trn_x, label=trn_y)
    valid_matrix = lgb.Dataset(val_x, label=val_y)
    # lightgbm参数
    lgb_params = {
        'boosting_type': 'gbdt',
        'objective': 'regression',
        'metric': 'mse',
        'min_child_weight': 5,
        'num_leaves': 2 ** 5,
        'lambda_l2': 10,
        'feature_fraction': 0.8,
        'bagging_fraction': 0.8,
        'bagging_freq': 4,
        'learning_rate': 0.05,
        'seed': 2024,
        'nthread' : 16,
        'verbose' : -1,
    }
    # 训练模型
    model = lgb.train(lgb_params, train_matrix, 50000, valid_sets=[train_matrix, valid_matrix], 
                      categorical_feature=[], verbose_eval=500, early_stopping_rounds=500)
    # 验证集和测试集结果预测
    val_pred = model.predict(val_x, num_iteration=model.best_iteration)
    test_pred = model.predict(test_df[cols], num_iteration=model.best_iteration)
    # 离线分数评估
    score = mean_squared_error(val_pred, val_y)
    print(score)
       
    return val_pred, test_pred
    
lgb_oof, lgb_test = time_model(lgb, train, test, train_cols)

# 保存结果文件到本地
test['target'] = lgb_test
test[['id','dt','target']].to_csv('submit.csv', index=None)

原来的代码中，LightGBM模型的参数是硬编码的，这意味着在训练模型之前，需要手动设置这些参数。虽然这种方法很简单，但它并不灵活，因为需要通过大量的试验和错误来找到最佳的参数组合。

因此我引入了GridSearchCV，这是一个强大的工具，它通过在给定的参数网格上进行交叉验证来搜索最优的参数组合。这样，你就不必手动调整参数，而是让算法自动完成这项工作，这不仅节省时间，而且可以提高找到更好参数组合的机会。

def time_model(lgb, train_df, test_df, cols):
    # 训练集和验证集切分
    trn_x, trn_y = train_df[train_df['dt'] >= 31][cols], train_df[train_df['dt'] >= 31]['target']
    val_x, val_y = train_df[train_df['dt'] <= 30][cols], train_df[train_df['dt'] <= 30]['target']
    
    # 构建模型输入数据
    train_matrix = lgb.Dataset(trn_x, label=trn_y)
    valid_matrix = lgb.Dataset(val_x, label=val_y)
    
    # 定义超参数搜索空间
    param_grid = {
        'learning_rate': [0.01, 0.05, 0.1],
        'num_leaves': [31, 63, 127],
        'max_depth': [5, 7, 9],
        'min_child_weight': [1, 5, 10],
        'feature_fraction': [0.5, 0.8, 1.0],
        'bagging_fraction': [0.5, 0.8, 1.0],
        'bagging_freq': [5, 10, 20],
        'lambda_l2': [0.1, 1, 10]
    }
    
    # 使用GridSearchCV进行超参数调优
    grid_search = GridSearchCV(
        lgb.LGBMRegressor(objective='regression', metric='mse'),
        param_grid, 
        cv=5, 
        scoring='neg_mean_squared_error', 
        verbose=1, 
        n_jobs=-1
    )
    grid_search.fit(trn_x, trn_y)
    
    # 输出最佳参数和最佳分数
    print("超参数调优完成。最佳参数：", grid_search.best_params_)
    print("最佳分数：", -grid_search.best_score_)
    
    # 使用最佳参数训练模型
    best_params = grid_search.best_params_
    model = lgb.train(best_params, train_matrix, num_boost_round=10000, valid_sets=[train_matrix, valid_matrix], early_stopping_rounds=500)
    
    # 验证集和测试集结果预测
    val_pred = model.predict(val_x, num_iteration=model.best_iteration_)
    test_pred = model.predict(test_df[cols], num_iteration=model.best_iteration_)
    
    # 离线分数评估
    score = mean_squared_error(val_y, val_pred)
    print("验证集MSE:", score)
    
    return val_pred, test_pred, model

具体来说，我定义了一个包含多个潜在参数值的字典param_grid。这个字典包括了学习率、树的叶子数量、最大深度、最小子权重、特征抽样比例、装袋分数、装袋频率和L2正则化参数。然后，你使用GridSearchCV来遍历这些参数的所有可能组合，并使用交叉验证来评估每一组参数的性能。

一旦GridSearchCV完成搜索，它会选择出表现最好的参数组合，并将其存储在grid_search.best_params_中。然后，你使用这组最佳参数来训练最终的LightGBM模型。这样，我的模型就可以在更高的效率和更有可能的最优性能下进行训练。

此外，通过打印grid_search.best_params_和grid_search.best_score_，你可以了解哪些参数对模型性能的提升贡献最大，以及模型在验证集上的表现如何。

最后，我使用训练出的模型对验证集和测试集进行预测，并计算验证集上的均方误差（MSE），来评估模型的实际性能。

这种更改使得模型训练过程更加自动化和系统化，这是提高机器学习模型开发效率和性能的一个很好的实践。

接下来，我们还可以尝试不同的参数网格，或者使用其他类型的超参数优化技术，比如随机搜索或贝叶斯优化，来进一步改进模型。同时，也可以考虑加入更多的数据预处理步骤或特征工程方法，来提高模型的预测能力。