1、预测过程
(1)、波士顿地区房价数据获取,数据来自于sklearn自带数据集;
(2)、波士顿地区房价数据分割;
(3)、训练与测试数据标准化处理;
(4)、使用最简单的线性回归模型LinearRegression对房价进行预测。
2、回归算法的评价指标有MSE,RMSE,MAE、R-Squared:
- MSE均方误差:
- MAE平均绝对误差:
- RMSE均方根误差:
- 可决系数(拟合优度)
3.代码实现
#导入用到的库
import sklearn.datasets as datasets
from sklearn.linear_model import LinearRegression #调用线性回归模型
from sklearn.model_selection import train_test_split
import pandas as pd
import numpy as np
Boston = datasets.load_boston() #载入数据集
print(Boston.DESCR) #得到关于房价的描述信息
x = Boston.data[:,5] #得到RM列的数据
x = x.reshape(-1,1) #变为1列
y = Boston.target
y = y.reshape(-1,1) #变为1列
#分割数据集为训练集与测试集
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size = 0.25,random_state = 0)
#创建线性回归模型
regr = LinearRegression()
#用训练集训练模型
regr.fit(x_train,y_train)
#用训练得出的模型进行预测
y_pred = regr.predict(x_test)
#根据公式计算所得结果
mse_test = np.sum((y_pred-y_test)**2)/len(y_test)
mae_test = np.sum(np.absolute(y_pred-y_test))/len(y_test)
rmse_test = mse_test ** 0.5
r2_score = 1- (mse_test/ np.var(y_test))
print('根据公式所得结果如下:')
print('均方误差:{},平均绝对误差:{},\n均方根误差:{},可决系数:{}'.format(mse_test,mae_test,rmse_test,r2_score))
print()
from sklearn.metrics import mean_squared_error #均方误差
from sklearn.metrics import mean_absolute_error #平方绝对误差
from sklearn.metrics import r2_score #R square
#调用函数获得结果
mse_test1 = mean_squared_error(y_test,y_pred)
mae_test1 = mean_absolute_error(y_test,y_pred)
rmse_test1 = mse_test1 ** 0.5
r2_score1 = r2_score(y_test,y_pred)
print('直接调用函数所得结果如下:')
print('均方误差:{},平均绝对误差:{},\n均方根误差:{},可决系数:{}'.format(mse_test1,mae_test1,rmse_test1,r2_score1))
代码总结,因为是只考虑了房间数目为特征,模型明显表现欠拟合。