Datawhale AI 夏令营——机器学习模型 lightgbm 入门

经典理论:

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限

机器学习模型解决问题的主要步骤:

探索性数据分析

数据预处理

提取特征

切分训练集与验证集

训练模型

预测结果

GBDT 简介

一种集成学习算法,通过组合多棵决策树来构建一个强大的预测模型。它是集成学习中基于决策树的一个重要代表,具有优秀的预测性能和良好的泛化能力。GBDT 广泛应用于回归和分类问题,如预测房价、点击率预测、风险评估等。

LightGBM 简介

LightGBM(Light Gradient Boosting Machine)是一个高效的梯度提升框架,由微软开发,用于快速、分布式、高性能的基于决策树算法的梯度提升(GBDT,Gradient Boosting Decision Tree)。它在处理大数据和高维数据时表现出色,广泛应用于各种机器学习竞赛和实际生产环境中。

LightGBM 优缺点

优点缺点
高效率和快速训练对小数据集不友好
高准确性和模型性能参数调优复杂
良好的扩展性缺乏内置交叉验证
内存高效不太适用于序列数据和图数据

特征工程

特征工程(Feature Engineering)是机器学习过程中的一项关键任务,它涉及从原始数据中提取、选择、转换和生成特征,以提高机器学习模型的性能。特征工程的质量直接影响到模型的准确性和效果。

历史平移特征:

历史平移特征是一种简单且直接的特征工程方法,不需要复杂的计算或算法,帮助模型捕捉时间序列中的依赖性或模式。它可以与其他特征组合使用,提高模型的表现。

窗口统计特征:

在时间序列或其他序列数据中,通过滑动窗口的方式计算的一组统计量,常见的窗口统计特征包括均值、方差、最大值、最小值、中位数等。窗口统计特征提供了多种不同尺度和角度的信息,有助于模型更好地理解和捕捉数据中的复杂模式。

使用示例

以 科大讯飞xDatawhale 的电力需求预测挑战赛为例,给定多个房屋对应电力消耗历史N天的相关序列数据等信息,预测房屋对应电力的消耗。预测结果以 mean square error 作为评判标准。

数据由训练集和测试集组成,数据字段如下表。

特征字段字段描述
id房屋id
dt日标识
type房屋类型
target实际电力消耗,预测目标

完整代码如下:

import numpy as np
import pandas as pd
import lightgbm as lgb
from sklearn.metrics import mean_squared_log_error, mean_absolute_error, mean_squared_error
import tqdm
import sys
import os
import gc
import argparse
import warnings
warnings.filterwarnings('ignore')

# 读取数据
train = pd.read_csv('dataset/train.csv')
test = pd.read_csv('dataset/test.csv')


# 合并训练数据和测试数据,并进行排序
data = pd.concat([test, train], axis=0, ignore_index=True)#按行连接
data = data.sort_values(['id','dt'], ascending=False).reset_index(drop=True)#按照 id 列和 dt 列进行降序排序,并重置行索引

# 历史平移特征
for i in range(10,30):
    data[f'last{i}_target'] = data.groupby(['id'])['target'].shift(i) #对 data 数据帧的每个 id 分组进行处理,生成新的列,这些新列的值是 target 列的偏移值
    
# 窗口统计特征
data[f'win3_mean_target'] = (data['last10_target'] + data['last11_target'] + data['last12_target']) / 3 #创建了新列 win3_mean_target,其值是 last10_target、last11_target 和 last12_target 三列对应位置的值的平均值

# 进行数据切分
train = data[data.target.notnull()].reset_index(drop=True)
test = data[data.target.isnull()].reset_index(drop=True)

# 确定输入特征
train_cols = [f for f in data.columns if f not in ['id','target']]

def time_model(lgb, train_df, test_df, cols):
    # 训练集和验证集切分
    trn_x, trn_y = train_df[train_df.dt>=31][cols], train_df[train_df.dt>=31]['target'] #trn_x 和 trn_y 分别是训练特征和目标变量
    val_x, val_y = train_df[train_df.dt<=30][cols], train_df[train_df.dt<=30]['target'] #val_x 和 val_y 分别是验证特征和目标变量
    # 构建模型输入数据
    train_matrix = lgb.Dataset(trn_x, label=trn_y)
    valid_matrix = lgb.Dataset(val_x, label=val_y)
    # lightgbm参数
    lgb_params = {
        'boosting_type': 'gbdt',#提升类型,使用梯度提升决策树(GBDT)
        'objective': 'regression',#目标函数,使用回归
        'metric': 'mse',#评估指标,使用均方误差(MSE)
        'min_child_weight': 5, #定一个叶子节点上最小的样本权重和
        'num_leaves': 2 ** 5,#树的最大叶子节点数
        'lambda_l2': 10,# L2 正则化项权重,用于防止过拟合
        'feature_fraction': 0.8,#每棵树训练前选择的特征比例,使用 80% 的特征来训练每棵树
        'bagging_fraction': 0.8,#每棵树训练前随机选择的样本比例
        'bagging_freq': 4,#每隔4次迭代执行一次 bagging
        'learning_rate': 0.05,#控制每次迭代更新的步长
        'seed': 2024,#随机数种子
        'nthread' : 16,#使用的线程数
        'verbose' : -1,#控制 LightGBM 的输出信息。-1 表示不输出信息,0 表示仅输出重要信息,1 表示输出所有信息
    }
    # 训练模型
    model = lgb.train(lgb_params, train_matrix, 50000, valid_sets=[train_matrix, valid_matrix], 
                      categorical_feature=[], callbacks = [lgb.log_evaluation(period=100), lgb.early_stopping(stopping_rounds=30)])
    # 验证集和测试集结果预测
    val_pred = model.predict(val_x, num_iteration=model.best_iteration)
    test_pred = model.predict(test_df[cols], num_iteration=model.best_iteration)
    # 离线分数评估
    score = mean_squared_error(val_pred, val_y)
    print(score)
       
    return val_pred, test_pred
    
lgb_oof, lgb_test = time_model(lgb, train, test, train_cols)

# 保存结果文件到本地
test['target'] = lgb_test
test[['id','dt','target']].to_csv('submit.csv', index=None)

因为数据存在时序关系,所以需要严格按照时序进行切分。选择原始给出训练数据集中dt为30之后的数据作为训练数据,之前的数据作为验证数据。

输出结果如下:

参数调整

num_leaves:增加树的最大叶子节点数,可以增加模型的复杂度,有助于更好地拟合训练数据。需要注意,过大的值可能导致过拟合。

调整 num_leaves 为 2 ** 6,结果如下:

调整 num_leaves 为 2 ** 7,结果如下:

learning_rate:较小的学习率通常有助于模型更充分地学习数据的结构,但需要更多的迭代次数才能收敛。

调整 learning_rate 为 0.04,结果如下:

调整 learning_rate 为 0.03,结果如下:

相关链接

LightGBM 中文文档LightGBM 是一个梯度 boosting 框架, 使用基于学习算法的决策树. 它是分布式的, 高效的。icon-default.png?t=N7T8https://lightgbm.cn/Welcome to LightGBM’s documentation! — LightGBM 4.4.0.99 documentationicon-default.png?t=N7T8https://lightgbm.readthedocs.io/en/latest/

  • 10
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值