简单介绍流程~
- 环境设置:确保安装所需库,并进行基本的样式和字体设置。
- 数据读取与初步观察:读取数据并查看其基本信息,了解数据结构。
- 数据集划分:将数据集划分为训练集和测试集,确保后续分析和模型训练的有效性。
- 缺失值检查:检查数据中的缺失值,了解数据的完整性。
- 数据重复性检查:通过函数检查数据的重复性,确保数据的一致性。
- 异常值分析:使用统计方法和可视化手段识别和分析数据中的异常值。
- 双变量分析:计算变量之间的相关性,并使用回归图展示变量之间的关系。
下面是个人运行下来的笔记
1. 环境设置
首先,安装所需的 Python 库:(后面发现跑不了的库也可以在这里补充安装)
!pip install numpy pandas seaborn matplotlib statsmodels
2. 导入库与基础设置
导入必要的库并进行一些基本设置:
import pandas as pd
import seaborn as sns
import matplotlib.pylab as plt
from pathlib import Path
import warnings
warnings.filterwarnings('ignore')
plt.style.use('ggplot')
plt.rcParams['font.sans-serif'] = ['SimHei'] # 设置中文字体
plt.rcParams['axes.unicode_minus'] = False # 解决负号显示问题
base_path = Path("data")
3. 数据读取与基本信息
读取数据并查看其基本信息:(文件路径替换自己的)
electricity_price = pd.read_csv(base_path/"electricity_price_parsed.csv", parse_dates=["timestamp"], index_col=0)
electricity_price.columns = ["demand", "price"]
electricity_price.head()
数据包括两个列:demand
(需求)和 price
(价格)。
4. 数据集划分
创建测试集和训练集掩码,分别标记价格为 NaN 和非 NaN 的数据行:
test_mask = electricity_price["price"].isna()
train_mask = ~test_mask
print(f"训练集范围:{electricity_price[train_mask].index.min()} --> {electricity_price[train_mask].index.max()}\t总长度{len(electricity_price[train_mask])}")
print(f"测试集范围:{electricity_price[test_mask].index.min()} --> {electricity_price[test_mask].index.max()}\t总长度{len(electricity_price[test_mask])}")
5. 缺失值检查
检查数据中的缺失值情况:
electricity_price.info()
测一下是否成功
electricity_price.head(12)
6. 数据重复性检查
进一步观察数据,发现数据中的出清价格在一小时内都是相同的,但负荷会在一小时中变动。写一个简单函数确认这一点:
def check_repeated(data, repeat_count=4):
for i in range(0, len(data), repeat_count):
subsequence = data[i:i + repeat_count]
if len(set(subsequence)) != 1:
print(f"序列数据不是元素不断重复 {repeat_count} 次")
return
print(f"序列数据是元素不断重复 {repeat_count} 次")
check_repeated(electricity_price[train_mask]["price"].values, repeat_count=4)
绘图
# 使用loc方法选择指定日期的数据,绘制价格图表
electricity_price.loc["2023-01-03"].plot(y="price", figsize=(18, 5), marker='o')
# 设置图表的标题
plt.title("2023年1月3日出清价格走势")
7. 异常值分析
通过绘制箱线图和计算 IQR 来识别数据中的异常值:
Q1 = electricity_price[train_mask]["price"].quantile(0.25)
Q3 = electricity_price[train_mask]["price"].quantile(0.75)
IQR = Q3 - Q1
upper_threshold = Q3 + 1.5 * IQR
high_abnormal_mask = (electricity_price["price"] > upper_threshold)
绘制高电价出现的小时和月分布:(源代码用的别的函数画图,可以根据自己版本环境自行调整)
plt.figure(figsize=(12, 7))
ax = sns.countplot(electricity_price[high_abnormal_mask], x="hour")
ax.set(title="高电量频数出现的小时分布")
plt.figure(figsize=(12,7))
ax = sns.countplot(electricity_price[high_abnormal_mask], x="month")
ax.set(title="高电量频数出现的月分布")
按月份和日期分组,并计算每个组合的异常值记录数量:
(electricity_price[high_abnormal_mask]
.groupby(["month", "day"])["price"]
.size()
.reset_index()
.sort_values("price", ascending=False)
.head(15))
绘制特定时间段的总需求和价格:(源代码用的别的函数画图,可以根据自己版本环境自行调整)
plt.figure(figsize=(20, 8))
ax = sns.lineplot(electricity_price.loc["2022-08-01":"2022-08-08"]["demand"], color="black")
plt.setp(ax.get_xticklabels(), rotation=45, ha='right')
plt.axvspan("2022-08-03", "2022-08-06", color="yellow", alpha=0.2)
plt.title("2022年8月1日 - 2022年8月8日 总需求")
plt.figure(figsize=(20, 8))
ax = sns.lineplot(electricity_price.loc["2022-08-01":"2022-08-08"]["price"], color="black")
plt.axhline(y=upper_threshold, color="red", linestyle="--")
plt.setp(ax.get_xticklabels(), rotation=45, ha='right')
plt.title("典型高电价时间段 2022年8月1日 - 2022年8月8日 中的3-6日")
8. 双变量分析
计算需求和价格之间的相关性:
electricity_price[["demand", "price"]].corr()
绘制需求和价格之间的回归图:(可以自行调整优化,这段run的特别慢)
plt.figure(figsize=(8, 10))
sns.regplot(
data=electricity_price.loc["2022"],
x="demand",
y="price",
scatter_kws={
"s": 0.5,
"alpha": 0.6,
"color": "black"
},
color="red",
lowess=True
)
大家加油~