Homework1:Liner Regression
作业链接:http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML20.html
1.读取数据和数据清洗
import sys
import numpy as np
import pandas as pd
data = pd.read_csv('hwdata/hw1/train.csv',encoding = 'big5')
data = data.iloc[:,3:]#前3列数据去掉
data[data == 'NR'] = 0
raw_data = data.to_numpy()#转化为numpy数组
2.提取特征
month_data = {}
for month in range(12):
sample = np.empty([18,480])
for day in range(20):
sample[ : , 24 * day : 24 * (day + 1)] = raw_data[18 * (20 * month + day) : 18 * (20 * month + day + 1), : ]
month_data[month] = sample
用sample作为一个18X480的数据块,而month_data里有12个这样的数据块(12代表月份,18是特征值,480是 20天X24小时 )
raw_data是(18X20天X12个月) X 24 的数组放置的数据,要将它变为month_data这种每一个月就是一个18X480的数据块
sample[ : , 24 * day : 24 * (day + 1)] = raw_data[18 * (20 * month + day) : 18 * (2