Task 1 Baseline
1. 导入必要的库
首先,导入必要的Python库,如 pandas
和 pathlib
。pandas
用于数据处理,pathlib
用于路径操作。
import pandas as pd
from pathlib import Path
2. 设置路径
使用 pathlib.Path
设置数据文件的基本路径,确保所有数据文件都存放在同级的 data
目录下。
# 确保数据都放在同级的data目录下
base_path = Path("data")
# 创建data目录(如果不存在)
base_path.mkdir(parents=True, exist_ok=True)
3. 读取数据
读取市场数据和市场主体(各发电机组)数据。这两个数据文件分别为 electricity price.csv
和 unit.csv
。使用 pandas.read_csv
方法读取CSV文件。
# 创建data目录(如果不存在)
base_path.mkdir(parents=True, exist_ok=True)
# 读取市场数据
electricity_price = pd.read_csv(r"your_path_electricity price.csv")
# 读取市场主体(各发电机组)数据
unit = pd.read_csv(r"your_path_unit.csv")
4. 准备示例提交数据 sample_submit
4.1 找到出清价格为缺失值的行
使用 isna()
方法找到 clearing price (CNY/MWh)
列中值为NaN的行,即要预测的目标。
# 找到出清价格为缺失值的行,即要预测的目标
sample_submit = electricity_price[electricity_price["clearing price (CNY/MWh)"].isna()]
4.2 去除 demand
列,符合最后的提交格式
使用 drop
方法去除 demand
列,得到符合提交格式的数据。
# 去除demand列,符合最后的提交格式
sample_submit = sample_submit.drop(columns="demand")
4.3 保存提交数据
将准备好的示例提交数据保存到 sample_submit.csv
文件中,使用 to_csv
方法。
# 保存示例提交数据
sample_submit.to_csv(base_path / "sample_submit.csv", index=False)
保存结果为submit.csv
成功后就可以提交到官网啦:上海科学智能研究院
解释
- 导入必要的库:首先导入
pandas
和pathlib
库,用于数据处理和路径操作。 - 设置路径:确保所有数据文件都存放在同级的
data
目录下。如果目录不存在,创建它。 - 读取数据:从指定路径读取市场数据和市场主体数据文件。
- 准备示例提交数据:
- 找到出清价格为缺失值的行,即需要预测的目标。
- 去除
demand
列,得到符合提交格式的数据。 - 将处理好的数据保存到
sample_submit.csv
文件中。