【科学计算与数学建模】线性回归预测PM2.5值之模型训练及测试

草堂春睡足

于 2024-03-08 00:25:47 发布

阅读量549

点赞数 7

分类专栏：科学计算与数学建模文章标签：数学建模线性回归算法

本文链接：https://blog.csdn.net/Hisser/article/details/136265094

版权

科学计算与数学建模专栏收录该内容

8 篇文章 0 订阅

订阅专栏

任务描述

本关任务：认识线性模型及梯度更新的一般知识，并实现PM2.5值的线性回归。

编程要求

完成右侧相关代码，实现线性回归预测PM2.5值。

测试说明

开始你的任务吧，祝你成功！

代码部分

import sys
import csv
import numpy as np
import pandas as pd
import math 
import random
data = []
# 每一个维度处理一种污染物
for i in range(18):
    data.append([])
# 训练数据的读取与处理
n_row = 0
text = open('/data/bigfiles/ab410c80-7695-4be3-9d57-b2c36fab9218',  'r',errors="ignore", encoding='big5')  #big5是针对于文档中存在繁体字的编码
row = csv.reader(text , delimiter = ",")
# 将数据存储到data变量中
for r in row:
    # 第0行沒有信息
    if n_row > 0: 
        # 每一行只有第3-27格有值(即一天中24小时)
        for i in range(3,27):
            if r[i] != "NR":#其中有一个污染物全部值为‘NR’
                data[(n_row-1)%18].append(float(r[i]))
            else:
                data[(n_row-1)%18].append(float(0))
    n_row = n_row+1
text.close()  
# 进行训练数据的处理和规整
x = []#特征
y = []#标签
# 共有12个月
for i in range(12):
    # 每个月共有480列数据，连取10小时的分组可有471组。
    for j in range(471):
        x.append([])
        # 共有18种污染物
        for t in range(18):#把18行合成同一行
            # 取前9小时为feature
            for s in range(9):
                x[471*i+j].append(data[t][480*i+j+s] )
        y.append(data[9][480*i+j+9])#取PM2.5的标签
x = np.array(x)
y = np.array(y)
#在第一列添加一列1
x = np.concatenate((np.ones((x.shape[0],1)),x), axis=1)

########Begin######
# 训练参数的设置
w = np.zeros(len(x[0]))
l_rate = 10
repeat = 10 

# 模型训练的过程
x_t = x.transpose() #x的转置
s_gra = np.zeros(len(x[0]))#记录之前梯度平方和
for i in range(repeat):#每一次迭代
    hypo = np.dot(x,w)# w*x
    loss = hypo - y #误差
#     print(loss.shape)
    cost = np.sum(loss**2) / len(x) #平方差
    cost_a  = math.sqrt(cost)#标准差
    gra = np.dot(x_t,loss)
#     print(gra.shape)
    s_gra += gra**2
    ada = np.sqrt(s_gra)
    w = w - l_rate * gra/ada
#    print ('iteration: %d | Cost: %f  ' % ( i,cost_a)) 

# 保存训练模型 这里由于服务器不可写，仅仅展示相关代码
# np.save('model.npy',w)
# 对训练好的模型进行读取，地址为：'/data/bigfiles/9bf99672-565e-4c8b-ad2a-c469f6cdc1bb'
w = np.load('/data/bigfiles/9bf99672-565e-4c8b-ad2a-c469f6cdc1bb')

# 读取测试数据，地址为：'/data/bigfiles/226ef946-237b-4946-8bde-c3ea9061c40d'
test_x = []
n_row = 0
text = open('/data/bigfiles/226ef946-237b-4946-8bde-c3ea9061c40d', 'r', encoding = 'big5')
row = csv.reader(text, delimiter = ',')
for r in row:
    if n_row %18 == 0:
        test_x.append([])#每个18加一行
        for i in range(2,11):
            test_x[n_row//18].append(float(r[i]))#整除18，得到每次id的预测
    else :
        for i in range(2,11):
            if r[i] !="NR":
                test_x[n_row//18].append(float(r[i]))
            else:
                test_x[n_row//18].append(0)
    n_row = n_row+1
text.close()
test_x = np.array(test_x)

# add square term
# test_x = np.concatenate((test_x,test_x**2), axis=1)

# add bias
test_x = np.concatenate((np.ones((test_x.shape[0],1)),test_x), axis=1)

# 进行预测
ans = []
for i in range(len(test_x)):
    ans.append(["id_"+str(i)])
    a = np.dot(w,test_x[i])#使用训练好的权重来完成测试集的预测
    ans[i].append(a)
#   print("第%d个数据的预测结果为："%i,a) 


#######End#######
# 打印预测结果的信息
print("共有预测结果%d条"%(len(ans)))