Datawhale AI 夏令营——电力需求挑战赛——Task2学习笔记

## 学习笔记:时间序列预测模型的特征工程与LightGBM建模

在这篇学习笔记中,我们将通过一个完整的时间序列预测任务示例,详细讲解如何进行特征工程和使用LightGBM进行建模和预测。以下是我们将要学习的主要步骤:

1. 数据准备
2. 数据合并与排序
3. 特征工程
4. 数据切分
5. 确定输入特征
6. 模型训练与预测

### 1. 数据准备

首先,我们准备训练数据和测试数据。

```python
import pandas as pd

train = pd.read_csv('./data/train.csv')
test = pd.read_csv('./data/test.csv')
```
*说明:从CSV文件中读取训练数据和测试数据。*

### 2. 数据合并与排序

将训练数据和测试数据合并,并按 `id` 和 `dt`(日期时间)进行排序。

```python
# 合并训练数据和测试数据,并进行排序
data = pd.concat([train, test], axis=0, ignore_index=True)
data = data.sort_values(['id', 'dt'], ascending=False).reset_index(drop=True)
```
*说明:合并后的数据方便统一进行特征工程,并按 `id` 和 `dt` 排序以确保时间序列的正确性。*

### 3. 特征工程

生成历史平移特征和滑动窗口统计特征。

```python
# 历史平移
for i in range(10, 30):
    data[f'last{i}_target'] = data.groupby(['id'])['target'].shift(i)
    
# 窗口统计
data[f'win3_mean_target'] = (data['last10_target'] + data['last11_target'] + data['last12_target']) / 3
```
*说明:历史平移特征用于捕捉时间序列的滞后效应,滑动窗口统计特征用于捕捉短期趋势。*

### 4. 数据切分

将合并后的数据重新切分为训练集和测试集。

```python
# 进行数据切分
train = data[data.target.notnull()].reset_index(drop=True)
test = data[data.target.isnull()].reset_index(drop=True)
```
*说明:根据 `target` 列是否为空值,将数据切分回训练集和测试集。*

### 5. 确定输入特征

排除不需要的列,确定模型训练的输入特征。

```python
# 确定输入特征
train_cols = [f for f in data.columns if f not in ['id', 'target', 'dt']]
```
*说明:排除 `id`、`target` 和 `dt` 列,选择其余列作为输入特征。*

### 6. 模型训练与预测

定义模型训练和预测函数,并使用LightGBM进行训练和预测。

```python
import lightgbm as lgb
from sklearn.metrics import mean_squared_error

def time_model(lgb, train_df, test_df, cols):
    # 训练集和验证集切分
    trn_x, trn_y = train_df[train_df.dt >= 31][cols], train_df[train_df.dt >= 31]['target']
    val_x, val_y = train_df[train_df.dt <= 30][cols], train_df[train_df.dt <= 30]['target']
    # 构建模型输入数据
    train_matrix = lgb.Dataset(trn_x, label=trn_y)
    valid_matrix = lgb.Dataset(val_x, label=val_y)
    # LightGBM参数
    lgb_params = {
        'boosting_type': 'gbdt',
        'objective': 'regression',
        'metric': 'mse',
        'min_child_weight': 5,
        'num_leaves': 2 ** 5,
        'lambda_l2': 10,
        'feature_fraction': 0.8,
        'bagging_fraction': 0.8,
        'bagging_freq': 4,
        'learning_rate': 0.05,
        'seed': 2024,
        'nthread': 16,
        'verbose': -1,
        'early_stopping_rounds': 500,
        'verbose_eval': 500
    }
    # 训练模型
    model = lgb.train(lgb_params, train_matrix, num_boost_round=50000, valid_sets=[train_matrix, valid_matrix], 
                      categorical_feature=[])
    # 验证集和测试集结果预测
    val_pred = model.predict(val_x, num_iteration=model.best_iteration)
    test_pred = model.predict(test_df[cols], num_iteration=model.best_iteration)
    # 离线分数评估
    score = mean_squared_error(val_pred, val_y)
    print(score)
       
    return val_pred, test_pred

lgb_oof, lgb_test = time_model(lgb, train, test, train_cols)
```
*说明:函数 `time_model` 用于训练LightGBM模型,进行验证和预测。*

### 7. 保存预测结果

将预测结果保存到CSV文件中。

```python
# 保存结果文件到本地
test['target'] = lgb_test
output_file = 'submit.csv'
test[['id', 'dt', 'target']].to_csv(output_file, index=None)
print(f"结果文件已保存到 {output_file}")

```
*说明:将预测的目标值保存到测试集,并输出到CSV文件中。*

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值