【机器学习实战】线性回归----boston房价预测

最新推荐文章于 2024-07-08 13:53:39 发布

htshinichi

最新推荐文章于 2024-07-08 13:53:39 发布

阅读量9.6k

点赞数 20

分类专栏：练习文章标签：机器学

本文链接：https://blog.csdn.net/u013597931/article/details/79915804

版权

不积跬步无以至千里，实践经验得慢慢积累，就从线性回归开始练习。

【导入所需要用到的库和数据分析】

导入库：

##用于可视化图表
import matplotlib.pyplot as plt
##用于做科学计算
import numpy as np
##用于做数据分析
import pandas as pd
##用于加载数据或生成数据等
from sklearn import datasets
##加载线性模型
from sklearn import linear_model
###用于交叉验证以及训练集和测试集的划分
from sklearn.cross_validation import train_test_split
from sklearn.model_selection import cross_val_predict
###这个模块中含有评分函数，性能度量，距离计算等
from sklearn import metrics

数据集：选择波士顿房价数据集，这是sklearn自带的小数据集，是一个用于回归任务的经典数据集。

boston = datasets.load_boston()
print(boston.data.shape)
print(boston["feature_names"])

输出为：
(506, 13)
['CRIM' 'ZN' 'INDUS' 'CHAS' 'NOX' 'RM' 'AGE' 'DIS' 'RAD' 'TAX' 'PTRATIO'
 'B' 'LSTAT']

我们可以了解到这个数据集中有506个样本，每个样本有13个输入特征，分别是：

feature	means
CRIM	城镇人均犯罪率
ZN	住宅用地超过25000sq.ft的比例
INUDS	城镇非零售商用土地的比例
CHAS	查理斯河空变量(如果边界是河流则为1，否则为0)
NOX	一氧化氮浓度
RM	住宅平均房间数
AGE	1940年之前建成的自用房屋比例
DIS	到波士顿五个中心区域的加权距离
RAD	辐射性公路接近指数
TAX	每10000美元的全值财产税率
PTRATIO	城镇师生比例
B	1000 $(B_k-0.63)^2$ ，其中 Bk