能源消耗预测挑战赛(学习中)
任务1:时序数据分析
任务说明:下载比赛数据集,按照时序维度进行分析数据
实践步骤:
- 报名并下载比赛数据集:https://challenge.xfyun.cn/topic/info?type=energy-consumption-forecast&ch=vWxQGFU
- 使用Pandas读取数据,查看字段的类型和分布。
- 选择2名客户绘制历史电量消耗曲线,查看是否存在规律?
# 导入相关库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
# 定义train_data_file和test_data_file
train_file = './Data/train.csv'
test_file = './Data/test.csv'
# 读取数据集
train_data = pd.read_csv(train_file)
test_data = pd.read_csv(test_file)
# 查看数据基本信息
train_data.head()
test_data.head()
train_data.info()
test_data.info()
train_data.describe()
test_data.describe()
# 查看是否存在缺失值
missing_values = train_data.isnull()
# 计算每一列的缺失值数量
missing_values_count = missing_values.sum()
print('missing_values_count',missing_values_count)
# 创建新的DataFrame
df = train_data.copy()
# 筛选数据中id=1的客户target
c1 = df[df['id'] == 1]['target']
# 设置图片大小格式
plt.figure(figsize=(18,9))
# 展示图片
plt.plot(np.arange(len(c1)), c1)
plt.show()
# 筛选数据中id=2的客户target
c2 = df[df['id'] == 2]['target']
# 设置图片大小格式
plt.figure(figsize=(18,9))
# 展示图片
plt.plot(np.arange(len(c2)), c2)
plt.show()