数据集:
train.csv: 每个月前 20 天的完整数据。
test.csv : 从剩下的数据当中取样出连续的 10 小时为一笔,前九小时的所有观测数据当作 feature,第十小时的 PM2.5 当作 answer。一共取出 240 笔不重复的 test data,请根据 feature 预测这 240 笔的 PM2.5。
数据集下载链接:https://aistudio.baidu.com/aistudio/datasetlist/2
项目代码:
from sklearn import linear_model
import numpy as np
import pandas as pd
#加载数据
train_data= pd.read_csv('data/train.csv') #默认情况下,会把数据内容的第一行默认为字段名标题,data_df中读取到的数据不包括文件第一行
#整理训练集数据,留下要用的数据
train_data_labels = list(train_data.columns.values)
#删除用不到的列
train_data1=train_data.drop([train_data_labels[0],train_data_labels[1],train_data_labels[2],'10','11', '12',