项目1-PM2.5预测
环境配置
import sys
import pandas as pd
import numpy as np
#读取测试数据
data = pd.read_csv('work/hw1_data/train.csv', encoding = 'big5')
print(data)
#检查Python版本
print(pd.__version__)
预处理
#从第三列筛取
data = data.iloc[:, 3:]
print(data)
#筛掉未知数NAR数
data[data == 'NR'] = 0
#将读取数转化为数组
raw_data = data.to_numpy()
提取特征 (1)
将原始 4320 * 18 的资料依照每个月份重组成 12 个 18 (特征) * 480 (小时) 的资料。
#将原始 4320 * 18 的资料依照每个月份重组成 12 个 18 (特征) * 480 (小时) 的资料 函数
month_data = {}
#化为12个月
for month in range(12):
#十八列数据。20天480h
sample = np.empty([18, 480])
for