Datawhale AI 夏令营——电力需求挑战赛——Task2学习笔记

最新推荐文章于 2024-08-21 16:56:45 发布

OvO786

最新推荐文章于 2024-08-21 16:56:45 发布

阅读量244

点赞数 4

文章标签：人工智能学习笔记

本文链接：https://blog.csdn.net/2302_80418619/article/details/140507066

版权

## 学习笔记：时间序列预测模型的特征工程与LightGBM建模

在这篇学习笔记中，我们将通过一个完整的时间序列预测任务示例，详细讲解如何进行特征工程和使用LightGBM进行建模和预测。以下是我们将要学习的主要步骤：

1. 数据准备
2. 数据合并与排序
3. 特征工程
4. 数据切分
5. 确定输入特征
6. 模型训练与预测

### 1. 数据准备

首先，我们准备训练数据和测试数据。

```python
import pandas as pd

train = pd.read_csv('./data/train.csv')
test = pd.read_csv('./data/test.csv')
```
*说明：从CSV文件中读取训练数据和测试数据。*

### 2. 数据合并与排序

将训练数据和测试数据合并，并按 `id` 和 `dt`（日期时间）进行排序。

```python
# 合并训练数据和测试数据，并进行排序
data = pd.concat([train, test], axis=0, ignore_index=True)
data = data.sort_values(['id', 'dt'], ascending=False).reset_index(drop=True)
```
*说明：合并后的数据方便统一进行特征工程，并按 `id` 和 `dt` 排序以确保时间序列的正确性。*

### 3. 特征工程

生成历史平移特征和滑动窗口统计特征。

```python
# 历史平移
for i in range(10, 30):
data[f'last{i}_target'] = data.groupby(['id'])['target'].shift(i)

# 窗口统计
data[f'win3_mean_target'] = (data['last10_target'] + data['last11_target'] + data['last12_target']) / 3
```
*说明：历史平移特征用于捕捉时间序列的滞后效应，滑动窗口统计特征用于捕捉短期趋势。*

### 4. 数据切分

将合并后的数据重新切分为训练集和测试集。

```python
# 进行数据切分
train = data[data.target.notnull()].reset_index(drop=True)
test = data[data.target.isnull()].reset_index(drop=True)
```
*说明：根据 `target` 列是否为空值，将数据切分回训练集和测试集。*

### 5. 确定输入特征

排除不需要的列，确定模型训练的输入特征。

```python
# 确定输入特征
train_cols = [f for f in data.columns if f not in ['id', 'target', 'dt']]
```
*说明：排除 `id`、`target` 和 `dt` 列，选择其余列作为输入特征。*

### 6. 模型训练与预测

定义模型训练和预测函数，并使用LightGBM进行训练和预测。

```python
import lightgbm as lgb
from sklearn.metrics import mean_squared_error

def time_model(lgb, train_df, test_df, cols):
# 训练集和验证集切分
trn_x, trn_y = train_df[train_df.dt >= 31][cols], train_df[train_df.dt >= 31]['target']
val_x, val_y = train_df[train_df.dt <= 30][cols], train_df[train_df.dt <= 30]['target']
# 构建模型输入数据
train_matrix = lgb.Dataset(trn_x, label=trn_y)
valid_matrix = lgb.Dataset(val_x, label=val_y)
# LightGBM参数
lgb_params = {
'boosting_type': 'gbdt',
'objective': 'regression',
'metric': 'mse',
'min_child_weight': 5,
'num_leaves': 2 ** 5,
'lambda_l2': 10,
'feature_fraction': 0.8,
'bagging_fraction': 0.8,
'bagging_freq': 4,
'learning_rate': 0.05,
'seed': 2024,
'nthread': 16,
'verbose': -1,
'early_stopping_rounds': 500,
'verbose_eval': 500
}
# 训练模型
model = lgb.train(lgb_params, train_matrix, num_boost_round=50000, valid_sets=[train_matrix, valid_matrix],
categorical_feature=[])
# 验证集和测试集结果预测
val_pred = model.predict(val_x, num_iteration=model.best_iteration)
test_pred = model.predict(test_df[cols], num_iteration=model.best_iteration)
# 离线分数评估
score = mean_squared_error(val_pred, val_y)
print(score)

return val_pred, test_pred

lgb_oof, lgb_test = time_model(lgb, train, test, train_cols)
```
*说明：函数 `time_model` 用于训练LightGBM模型，进行验证和预测。*

### 7. 保存预测结果

将预测结果保存到CSV文件中。

```python
# 保存结果文件到本地
test['target'] = lgb_test
output_file = 'submit.csv'
test[['id', 'dt', 'target']].to_csv(output_file, index=None)
print(f"结果文件已保存到 {output_file}")

```
*说明：将预测的目标值保存到测试集，并输出到CSV文件中。*

OvO786

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Datawhale AI 夏令营——电力需求挑战赛——Task2学习笔记

说明：合并后的数据方便统一进行特征工程，并按 `id` 和 `dt` 排序以确保时间序列的正确性。*说明：函数 `time_model` 用于训练LightGBM模型，进行验证和预测。*说明：排除 `id`、`target` 和 `dt` 列，选择其余列作为输入特征。将训练数据和测试数据合并，并按 `id` 和 `dt`（日期时间）进行排序。*说明：根据 `target` 列是否为空值，将数据切分回训练集和测试集。*说明：将预测的目标值保存到测试集，并输出到CSV文件中。# 验证集和测试集结果预测。
复制链接

扫一扫