Datawhale_Machine_learning_Task1

m0_46648796

已于 2024-07-15 23:00:42 修改

阅读量207

点赞数 3

文章标签： python machine learning

于 2024-07-15 22:58:57 首次发布

本文链接：https://blog.csdn.net/m0_46648796/article/details/140451101

版权

赛题比赛官网: 电力需求预测挑战赛

分析赛题数据，为电力预测，其中赛题数据集由字段id（房屋id）、 dt（日标识）、type（房屋类型）、target（实际电力消耗）组成。

每日日期进行脱敏，用1-N进行标识，即1为数据集最近一天，其中1-10为测试集数据。
不同房屋类型数据样本量不一定相同，导致可能出现类别不均衡的现象

首先查看数据（发现数据太多，使用Excel打开会提示，直接使用Python进行简单的数据查看、统计分析、样本分布特征分析等基础操作。（如果不会可以问大模型，一般都会给出答案）
代码如下：

# 导入基本库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 导入数据（假设数据train.csv在同一个文件夹下
data = pd.read_csv('train.csv')

# 打印前5行
print(data.head())

# 查看基本信息
print(data.info())
print(data.describe())

# 查看数据集是否存在Null值
print(data.isnull().sum())    # 本赛题数据集并没有缺失值，不需要处理

# 查看是否存在数据类不均衡的现象（本赛题主要考虑不同房屋类型下数据量大小|不同房屋id数据量大小）

data_counts_by_id = data['id'].value_counts()    
"""
获取id的计数，发现id数据分布存在类别不均衡的现象，
多数id的训练数据量在450~510之间，
有少数（<50)在50以下（前天统计的，具体多少忘记了，
总数应该是5000+个id
"""
data_counts_by_id = data['type'].value_counts()    # 获取type的计数

Task1 Baseline

# 计算训练数据最近11-20单位时间内对应id的目标均值
target_mean = train[train['dt']<=20].groupby(['id'])['target'].mean().reset_index()

# 将target_mean作为测试集结果进行合并
test = test.merge(target_mean, on=['id'], how='left')