这里我们先给出原来的代码
import numpy as np
import pandas as pd
import lightgbm as lgb
from sklearn.metrics import mean_squared_log_error, mean_absolute_error, mean_squared_error
import tqdm
import sys
import os
import gc
import argparse
import warnings
warnings.filterwarnings('ignore')
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')
# 合并训练数据和测试数据,并进行排序
data = pd.concat([test, train], axis=0, ignore_index=True)
data = data.sort_values(['id','dt'], ascending=False).reset_index(drop=True)
# 历史平移
for i in range(10,30):
data[f'last{i}_target'] = data.groupby(['id'])['target'].shift(i)
# 窗口统计
data[f'win3_mean_target'] = (data['last10_target'] + data['last11_target'] + data['last12_target']) / 3
# 进行数据切分
train = data[data.target.notnull()].reset_index(drop=True)
test = data[data.target.isnull()].reset_index(drop=True)
# 确定输入特征
train_cols = [f for f in data.columns if f not in ['id','target']]
def time_model(lgb, train_df, test_df, cols):
# 训练集和验证集切分
trn_x, trn_y = train_df[train_df.dt>=31][cols], train_df[train_df.dt>=31]['target']
val_x, val_y = train_df[train_df.dt<=30][cols], train_df[train_df.dt<=30]['target']
# 构建模型输入数据
train_matrix = lgb.Dataset(trn_x, label=trn_y)
valid_matrix = lgb.Dataset(val_x, label=val_y)
# lightgbm参数
lgb_params = {
'boosting_type': 'gbdt',
'objective': 'regression',
'metric': 'mse',
'min_child_weight': 5,
'num_leaves': 2 ** 5,
'lambda_l2': 10,
'feature_fraction': 0.8,
'bagging_fraction': 0.8,
'bagging_freq': 4,
'learning_rate': 0.05,
'seed': 2024,
'nthread' : 16,
'verbose' : -1,
}
# 训练模型
model = lgb.train(lgb_params, train_matrix, 50000, valid_sets=[train_matrix, valid_matrix],
categorical_feature=[], verbose_eval=500, early_stopping_rounds=500)
# 验证集和测试集结果预测
val_pred = model.predict(val_x, num_iteration=model.best_iteration)
test_pred = model.predict(test_df[cols], num_iteration=model.best_iteration)
# 离线分数评估
score = mean_squared_error(val_pred, val_y)
print(score)
return val_pred, test_pred
lgb_oof, lgb_test = time_model(lgb, train, test, train_cols)
# 保存结果文件到本地
test['target'] = lgb_test
test[['id','dt','target']].to_csv('submit.csv', index=None)
原来的代码中,LightGBM模型的参数是硬编码的,这意味着在训练模型之前,需要手动设置这些参数。虽然这种方法很简单,但它并不灵活,因为需要通过大量的试验和错误来找到最佳的参数组合。
因此我引入了GridSearchCV
,这是一个强大的工具,它通过在给定的参数网格上进行交叉验证来搜索最优的参数组合。这样,你就不必手动调整参数,而是让算法自动完成这项工作,这不仅节省时间,而且可以提高找到更好参数组合的机会。
def time_model(lgb, train_df, test_df, cols):
# 训练集和验证集切分
trn_x, trn_y = train_df[train_df['dt'] >= 31][cols], train_df[train_df['dt'] >= 31]['target']
val_x, val_y = train_df[train_df['dt'] <= 30][cols], train_df[train_df['dt'] <= 30]['target']
# 构建模型输入数据
train_matrix = lgb.Dataset(trn_x, label=trn_y)
valid_matrix = lgb.Dataset(val_x, label=val_y)
# 定义超参数搜索空间
param_grid = {
'learning_rate': [0.01, 0.05, 0.1],
'num_leaves': [31, 63, 127],
'max_depth': [5, 7, 9],
'min_child_weight': [1, 5, 10],
'feature_fraction': [0.5, 0.8, 1.0],
'bagging_fraction': [0.5, 0.8, 1.0],
'bagging_freq': [5, 10, 20],
'lambda_l2': [0.1, 1, 10]
}
# 使用GridSearchCV进行超参数调优
grid_search = GridSearchCV(
lgb.LGBMRegressor(objective='regression', metric='mse'),
param_grid,
cv=5,
scoring='neg_mean_squared_error',
verbose=1,
n_jobs=-1
)
grid_search.fit(trn_x, trn_y)
# 输出最佳参数和最佳分数
print("超参数调优完成。最佳参数:", grid_search.best_params_)
print("最佳分数:", -grid_search.best_score_)
# 使用最佳参数训练模型
best_params = grid_search.best_params_
model = lgb.train(best_params, train_matrix, num_boost_round=10000, valid_sets=[train_matrix, valid_matrix], early_stopping_rounds=500)
# 验证集和测试集结果预测
val_pred = model.predict(val_x, num_iteration=model.best_iteration_)
test_pred = model.predict(test_df[cols], num_iteration=model.best_iteration_)
# 离线分数评估
score = mean_squared_error(val_y, val_pred)
print("验证集MSE:", score)
return val_pred, test_pred, model
具体来说,我定义了一个包含多个潜在参数值的字典param_grid
。这个字典包括了学习率、树的叶子数量、最大深度、最小子权重、特征抽样比例、装袋分数、装袋频率和L2正则化参数。然后,你使用GridSearchCV
来遍历这些参数的所有可能组合,并使用交叉验证来评估每一组参数的性能。
一旦GridSearchCV
完成搜索,它会选择出表现最好的参数组合,并将其存储在grid_search.best_params_
中。然后,你使用这组最佳参数来训练最终的LightGBM模型。这样,我的模型就可以在更高的效率和更有可能的最优性能下进行训练。
此外,通过打印grid_search.best_params_
和grid_search.best_score_
,你可以了解哪些参数对模型性能的提升贡献最大,以及模型在验证集上的表现如何。
最后,我使用训练出的模型对验证集和测试集进行预测,并计算验证集上的均方误差(MSE),来评估模型的实际性能。
这种更改使得模型训练过程更加自动化和系统化,这是提高机器学习模型开发效率和性能的一个很好的实践。
接下来,我们还可以尝试不同的参数网格,或者使用其他类型的超参数优化技术,比如随机搜索或贝叶斯优化,来进一步改进模型。同时,也可以考虑加入更多的数据预处理步骤或特征工程方法,来提高模型的预测能力。