Datawhale AI 夏令营第二期入门机器学习竞赛-CSDN博客

本文链接：https://blog.csdn.net/qq_45900822/article/details/140373325

赛题任务

给定多个房屋对应电力消耗历史N天的相关序列数据等信息，预测房屋对应电力的消耗。

赛题数据简介

赛题数据由训练集和测试集组成，为了保证比赛的公平性，将每日日期进行脱敏，用1-N进行标识。

即1为数据集最近一天，其中1-10为测试集数据。

数据集由字段id（房屋id）、 dt（日标识）、type（房屋类型）、target（实际电力消耗）组成。

test.csv：

# 导入 pandas 库，用于数据处理和分析
import pandas as pd
# 导入 numpy 库，用于科学计算和多维数组操作
import numpy as np

# 2. 读取训练集和测试集
# 使用 read_csv() 函数从文件中读取训练集数据，文件名为 'train.csv'
train = pd.read_csv('./data/data283931/train.csv')
# 使用 read_csv() 函数从文件中读取测试集数据，文件名为 'train.csv'
test = pd.read_csv('./data/data283931/test.csv')

# 3. 计算训练数据最近11-20单位时间内对应id的目标均值
target_mean = train[train['dt']<=20].groupby(['id'])['target'].mean().reset_index()

# 4. 将target_mean作为测试集结果进行合并
test = test.merge(target_mean, on=['id'], how='left')

# 5. 保存结果文件到本地
test[['id','dt','target']].to_csv('submit.csv', index=None)

submit.csv：

用chatgpt代码释义

1. 导入必要的库

import pandas as pd：导入 Pandas 库，并使用简写 pd 作为别名。Pandas 是一个强大的数据处理和分析库，常用于处理表格数据（例如 Excel 或 CSV 文件）。
import numpy as np：导入 NumPy 库，并使用简写 np 作为别名。NumPy 是一个用于科学计算的库，提供了对多维数组对象的支持和各种数学函数。

2. 读取训练集和测试集

train = pd.read_csv('./data/data283931/train.csv')：使用 Pandas 库的 read_csv 函数从指定路径 ./data/data283931/train.csv 读取训练集数据，并将其存储在 train 变量中。CSV（Comma-Separated Values）文件是一种常见的文本文件格式，数据以逗号分隔。
test = pd.read_csv('./data/data283931/test.csv')：同样地，使用 read_csv 函数从指定路径 ./data/data283931/test.csv 读取测试集数据，并将其存储在 test 变量中。

3. 计算训练数据最近11-20单位时间内对应id的目标均值

# 计算训练数据最近11-20单位时间内对应id的目标均值

target_mean = train[train['dt']<=20].groupby(['id'])['target'].mean().reset_index()

train[train['dt']<=20]：筛选 train 数据框中 dt（时间）小于等于 20 的所有行。
.groupby(['id'])：对筛选后的数据按 id 列进行分组。
['target'].mean()：计算每个分组（每个 id）的 target 列的均值。
.reset_index()：重置索引，将分组的结果转换为一个新的数据框。

最终结果是一个新的数据框 target_mean，包含两列：id 和对应的 target 均值。

4. 将target_mean作为测试集结果进行合并

test = test.merge(target_mean, on=['id'], how='left')

test.merge(target_mean, on=['id'], how='left')：将 target_mean 数据框与 test 数据框进行左连接（left join），连接的条件是 id 列相等。
- on=['id']：指定连接键为 id 列。
- how='left'：指定连接类型为左连接，这意味着保留 test 数据框中的所有行，即使在 target_mean 中找不到匹配的 id。

5. 保存结果文件到本地

test[['id','dt','target']].to_csv('submit.csv', index=None)

test[['id','dt','target']]：选择 test 数据框中的 id、dt 和 target 三列。
.to_csv('submit.csv', index=None)：将选择后的数据保存到名为 submit.csv 的 CSV 文件中。
- index=None：不将数据框的索引保存到 CSV 文件中。