【第二届世界科学智能大赛】社会科学赛道:市场博弈和价格预测笔记-TASK2 #Datawhale#夏令营

简单介绍流程~

  • 环境设置:确保安装所需库,并进行基本的样式和字体设置。
  • 数据读取与初步观察:读取数据并查看其基本信息,了解数据结构。
  • 数据集划分:将数据集划分为训练集和测试集,确保后续分析和模型训练的有效性。
  • 缺失值检查:检查数据中的缺失值,了解数据的完整性。
  • 数据重复性检查:通过函数检查数据的重复性,确保数据的一致性。
  • 异常值分析:使用统计方法和可视化手段识别和分析数据中的异常值。
  • 双变量分析:计算变量之间的相关性,并使用回归图展示变量之间的关系。

下面是个人运行下来的笔记

1. 环境设置

首先,安装所需的 Python 库:(后面发现跑不了的库也可以在这里补充安装)

!pip install numpy pandas seaborn matplotlib statsmodels
2. 导入库与基础设置

导入必要的库并进行一些基本设置:

import pandas as pd
import seaborn as sns
import matplotlib.pylab as plt
from pathlib import Path
import warnings

warnings.filterwarnings('ignore')
plt.style.use('ggplot')
plt.rcParams['font.sans-serif'] = ['SimHei']  # 设置中文字体
plt.rcParams['axes.unicode_minus'] = False  # 解决负号显示问题

base_path = Path("data")
3. 数据读取与基本信息

读取数据并查看其基本信息:(文件路径替换自己的)

electricity_price = pd.read_csv(base_path/"electricity_price_parsed.csv", parse_dates=["timestamp"], index_col=0)
electricity_price.columns = ["demand", "price"]
electricity_price.head()

数据包括两个列:demand(需求)和 price(价格)。

4. 数据集划分

创建测试集和训练集掩码,分别标记价格为 NaN 和非 NaN 的数据行:

test_mask = electricity_price["price"].isna()
train_mask = ~test_mask

print(f"训练集范围:{electricity_price[train_mask].index.min()} --> {electricity_price[train_mask].index.max()}\t总长度{len(electricity_price[train_mask])}")
print(f"测试集范围:{electricity_price[test_mask].index.min()} --> {electricity_price[test_mask].index.max()}\t总长度{len(electricity_price[test_mask])}")
5. 缺失值检查

检查数据中的缺失值情况:

electricity_price.info()

测一下是否成功

electricity_price.head(12)
6. 数据重复性检查

进一步观察数据,发现数据中的出清价格在一小时内都是相同的,但负荷会在一小时中变动。写一个简单函数确认这一点:

def check_repeated(data, repeat_count=4):
    for i in range(0, len(data), repeat_count):
        subsequence = data[i:i + repeat_count]
        if len(set(subsequence)) != 1:
            print(f"序列数据不是元素不断重复 {repeat_count} 次")
            return
    print(f"序列数据是元素不断重复 {repeat_count} 次")

check_repeated(electricity_price[train_mask]["price"].values, repeat_count=4)

绘图

# 使用loc方法选择指定日期的数据,绘制价格图表
electricity_price.loc["2023-01-03"].plot(y="price", figsize=(18, 5), marker='o')

# 设置图表的标题
plt.title("2023年1月3日出清价格走势")
7. 异常值分析

通过绘制箱线图和计算 IQR 来识别数据中的异常值:

Q1 = electricity_price[train_mask]["price"].quantile(0.25)
Q3 = electricity_price[train_mask]["price"].quantile(0.75)
IQR = Q3 - Q1
upper_threshold = Q3 + 1.5 * IQR

high_abnormal_mask = (electricity_price["price"] > upper_threshold)

绘制高电价出现的小时和月分布:(源代码用的别的函数画图,可以根据自己版本环境自行调整)

plt.figure(figsize=(12, 7))
ax = sns.countplot(electricity_price[high_abnormal_mask], x="hour")
ax.set(title="高电量频数出现的小时分布")

plt.figure(figsize=(12,7))
ax = sns.countplot(electricity_price[high_abnormal_mask], x="month")
ax.set(title="高电量频数出现的月分布")

按月份和日期分组,并计算每个组合的异常值记录数量:

(electricity_price[high_abnormal_mask]
 .groupby(["month", "day"])["price"]
 .size()
 .reset_index()
 .sort_values("price", ascending=False)
 .head(15))

绘制特定时间段的总需求和价格:(源代码用的别的函数画图,可以根据自己版本环境自行调整)

plt.figure(figsize=(20, 8))
ax = sns.lineplot(electricity_price.loc["2022-08-01":"2022-08-08"]["demand"], color="black")
plt.setp(ax.get_xticklabels(), rotation=45, ha='right')
plt.axvspan("2022-08-03", "2022-08-06", color="yellow", alpha=0.2)
plt.title("2022年8月1日 - 2022年8月8日 总需求")

plt.figure(figsize=(20, 8))
ax = sns.lineplot(electricity_price.loc["2022-08-01":"2022-08-08"]["price"], color="black")
plt.axhline(y=upper_threshold, color="red", linestyle="--")
plt.setp(ax.get_xticklabels(), rotation=45, ha='right')
plt.title("典型高电价时间段 2022年8月1日 - 2022年8月8日 中的3-6日")
8. 双变量分析

计算需求和价格之间的相关性:

electricity_price[["demand", "price"]].corr()

绘制需求和价格之间的回归图:(可以自行调整优化,这段run的特别慢)

plt.figure(figsize=(8, 10))
sns.regplot(
    data=electricity_price.loc["2022"],
    x="demand",
    y="price",
    scatter_kws={
        "s": 0.5,
        "alpha": 0.6,
        "color": "black"
    },
    color="red",
    lowess=True
)

大家加油~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值