【第二届世界科学智能大赛】社会科学赛道：市场博弈和价格预测笔记-TASK2 #Datawhale#夏令营

本文链接：https://blog.csdn.net/dcc204623889/article/details/140810163

简单介绍流程~

环境设置：确保安装所需库，并进行基本的样式和字体设置。
数据读取与初步观察：读取数据并查看其基本信息，了解数据结构。
数据集划分：将数据集划分为训练集和测试集，确保后续分析和模型训练的有效性。
缺失值检查：检查数据中的缺失值，了解数据的完整性。
数据重复性检查：通过函数检查数据的重复性，确保数据的一致性。
异常值分析：使用统计方法和可视化手段识别和分析数据中的异常值。
双变量分析：计算变量之间的相关性，并使用回归图展示变量之间的关系。

下面是个人运行下来的笔记

1. 环境设置

首先，安装所需的 Python 库：（后面发现跑不了的库也可以在这里补充安装）

!pip install numpy pandas seaborn matplotlib statsmodels

2. 导入库与基础设置

导入必要的库并进行一些基本设置：

import pandas as pd
import seaborn as sns
import matplotlib.pylab as plt
from pathlib import Path
import warnings

warnings.filterwarnings('ignore')
plt.style.use('ggplot')
plt.rcParams['font.sans-serif'] = ['SimHei']  # 设置中文字体
plt.rcParams['axes.unicode_minus'] = False  # 解决负号显示问题

base_path = Path("data")

3. 数据读取与基本信息

读取数据并查看其基本信息：（文件路径替换自己的）

electricity_price = pd.read_csv(base_path/"electricity_price_parsed.csv", parse_dates=["timestamp"], index_col=0)
electricity_price.columns = ["demand", "price"]
electricity_price.head()

数据包括两个列：demand（需求）和 price（价格）。

4. 数据集划分

创建测试集和训练集掩码，分别标记价格为 NaN 和非 NaN 的数据行：

test_mask = electricity_price["price"].isna()
train_mask = ~test_mask

print(f"训练集范围：{electricity_price[train_mask].index.min()} --> {electricity_price[train_mask].index.max()}\t总长度{len(electricity_price[train_mask])}")
print(f"测试集范围：{electricity_price[test_mask].index.min()} --> {electricity_price[test_mask].index.max()}\t总长度{len(electricity_price[test_mask])}")

5. 缺失值检查

检查数据中的缺失值情况：

electricity_price.info()

测一下是否成功

electricity_price.head(12)

6. 数据重复性检查

进一步观察数据，发现数据中的出清价格在一小时内都是相同的，但负荷会在一小时中变动。写一个简单函数确认这一点：

def check_repeated(data, repeat_count=4):
    for i in range(0, len(data), repeat_count):
        subsequence = data[i:i + repeat_count]
        if len(set(subsequence)) != 1:
            print(f"序列数据不是元素不断重复 {repeat_count} 次")
            return
    print(f"序列数据是元素不断重复 {repeat_count} 次")

check_repeated(electricity_price[train_mask]["price"].values, repeat_count=4)

绘图

# 使用loc方法选择指定日期的数据，绘制价格图表
electricity_price.loc["2023-01-03"].plot(y="price", figsize=(18, 5), marker='o')

# 设置图表的标题
plt.title("2023年1月3日出清价格走势")

7. 异常值分析

通过绘制箱线图和计算 IQR 来识别数据中的异常值：

Q1 = electricity_price[train_mask]["price"].quantile(0.25)
Q3 = electricity_price[train_mask]["price"].quantile(0.75)
IQR = Q3 - Q1
upper_threshold = Q3 + 1.5 * IQR

high_abnormal_mask = (electricity_price["price"] > upper_threshold)

绘制高电价出现的小时和月分布：（源代码用的别的函数画图，可以根据自己版本环境自行调整）

plt.figure(figsize=(12, 7))
ax = sns.countplot(electricity_price[high_abnormal_mask], x="hour")
ax.set(title="高电量频数出现的小时分布")

plt.figure(figsize=(12,7))
ax = sns.countplot(electricity_price[high_abnormal_mask], x="month")
ax.set(title="高电量频数出现的月分布")

按月份和日期分组，并计算每个组合的异常值记录数量：

(electricity_price[high_abnormal_mask]
 .groupby(["month", "day"])["price"]
 .size()
 .reset_index()
 .sort_values("price", ascending=False)
 .head(15))

绘制特定时间段的总需求和价格：（源代码用的别的函数画图，可以根据自己版本环境自行调整）

plt.figure(figsize=(20, 8))
ax = sns.lineplot(electricity_price.loc["2022-08-01":"2022-08-08"]["demand"], color="black")
plt.setp(ax.get_xticklabels(), rotation=45, ha='right')
plt.axvspan("2022-08-03", "2022-08-06", color="yellow", alpha=0.2)
plt.title("2022年8月1日 - 2022年8月8日 总需求")

plt.figure(figsize=(20, 8))
ax = sns.lineplot(electricity_price.loc["2022-08-01":"2022-08-08"]["price"], color="black")
plt.axhline(y=upper_threshold, color="red", linestyle="--")
plt.setp(ax.get_xticklabels(), rotation=45, ha='right')
plt.title("典型高电价时间段 2022年8月1日 - 2022年8月8日 中的3-6日")

8. 双变量分析

计算需求和价格之间的相关性：

electricity_price[["demand", "price"]].corr()

绘制需求和价格之间的回归图：（可以自行调整优化，这段run的特别慢）

plt.figure(figsize=(8, 10))
sns.regplot(
    data=electricity_price.loc["2022"],
    x="demand",
    y="price",
    scatter_kws={
        "s": 0.5,
        "alpha": 0.6,
        "color": "black"
    },
    color="red",
    lowess=True
)

大家加油~