Datawhale干货
作者:鱼佬、骆秀韬,Datawhale成员
本实践是数据挖掘类型的比赛,聚焦于工业场景。实践任务本质上为回归任务,其中会涉及到时序预测相关的知识。
本实践可帮助大家:
快速掌握数据挖掘任务基本流程,为后续更多比赛的实践打下基础;
在实践中还可以学习到如果构建时间序列预测相关问题的特征提取技巧,以及模型使用方法。
实践任务
通过电炉生产数据推测产品内部温度:
任务输入:电炉对应17个温区的实际生产数据;
任务输出:电炉对应17个温区上部空间和下部空间17个测温点的测量温度值。
赛事地址:https://challenge.xfyun.cn/topic/info?type=lithium-ion-battery&ch=LpBfiI8
实践思路
面对回归预测问题,通常有以下几种思路:
常规思路:使用机器学习,如LightGBM、XGBoost,该方法模型使用简单,数据不需要过多预处理;
深度学习:使用深度学习进行实践。该在模型的搭建上就比较复杂,需要自己构建模型结构,对于数值数据需要进行标准化处理;
本实践使用机器学习lightgbm解决问题,主要步骤为数据预处理、切分训练集与验证集、训练模型、预测结果。
具体流程如下:
实践代码
完整代码如下,一键复制即可运行:
# 导入所需的库
import pandas as pd # 用于处理数据的工具
import lightgbm as lgb # 机器学习模型 LightGBM
from sklearn.metrics import mean_absolute_error # 评分 MAE 的计算函数
from sklearn.model_selection import train_test_split # 拆分训练集与验证集工具
from tqdm import tqdm # 显示循环的进度条工具
# 数据准备
train_dataset = pd.read_csv("./data/train.csv") # 原始训练数据。
test_dataset = pd.read_