一、分析问题
尝试使用线性回归模型分析波士顿房价数据集,达到可通过房子属性(X)预测房价(y)的效果。
二、获取数据
sklearn.datasets中自带的load_boston数据集。
三、数据探索
1、数据探索
#导入所有可能需要用到的python包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
#导入数据
from sklearn.datasets import load_boston
d=load_boston()
d#查看数据集
得出load_boston是一个字典,包含“data”、“target”、“feature_names”、“DESCR”四个key。
其中data表示房屋特征,target表示房价,各特征解释如下:
CRIM ------【城镇人均犯罪率】
ZN -------【住宅用地所占比例】
INDUS ------【城镇中非商业用地占比例】
CHAS ------【查尔斯河虚拟变量,如果是河道,则为1;否则为0 )】
NOX ------【环保指标】
RM -------【每栋住宅房间数】
AGE------【1940年以前建造的自住单位比例 】
DIS ------【与波士顿的五个就业中心加权距离】
RAD ------【距离高速公路的便利指数】
TAX ------【每一万美元的不动产税率】
PTRATIO ------【城镇中教师学生比例】
B ------【城镇中黑人比例】
LSTAT ------【房东属于低等收入阶层比例】
MEDV