0304线性回归(多变量)-基于波士顿房产数据集

最新推荐文章于 2024-08-19 00:02:12 发布

Guiabbey

最新推荐文章于 2024-08-19 00:02:12 发布

阅读量2k

点赞数 1

本文链接：https://blog.csdn.net/Guiabbey/article/details/88118639

版权

本文介绍了使用波士顿房产数据集进行多变量线性回归的分析过程。通过对数据集的预处理，包括数据标准化，提高了模型的拟合优度达到63.5%。讨论了在处理DataFrame数据时的注意事项，如切片操作和数据标签设置，并解释了在数据划分后如何恢复索引顺序。最后，提到了网格搜索作为调参的一种方法，详细阐述了其工作原理。

摘要由CSDN通过智能技术生成

1、首先对波士顿房产数据集进行分析

CRIM: 城镇人均犯罪率
ZN: 住宅用地所占比例
INDUS: 城镇中非住宅用地所占比例
CHAS: 查尔斯河（Charles River）变量（若土地位于河流边界，则为 1；否则为 0）
NOX: 环保指数
RM: 每栋住宅的房间数
AGE: 1940 年以前建成的自住单位的比例
DIS: 距离 5 个波士顿的就业中心的加权距离。
RAD: 距离高速公路的便利指数
TAX: 每一万美元的不动产税率
PRTATIO: 城镇中的教师学生比例
B: 城镇中的黑人比例
LSTAT: 地区中有多少房东属于低收入人群
MEDV: 自住房屋房价中位数

通过分析，可知CRIM、ZN、INDUS、NOX、AGE、RAD、TAX、PRTATIO、B是相对数，而
RM、DIS、LSTAT、MEDV是绝对数，其中CHAS是虚拟变量。对于多变量问题，需要将这些特征都具有相近的尺度，可通过数据标准化处理，可帮助梯度下降更快的收敛。
常用的数据标准化方法有三种：

规范化方法
正规化方法
归一化方法

2、实战

"""
日期：20190305
任务四
1. 波士顿房产数据(完整数据)
2. 实现多变量(手写代码)
3. 数据标准化(手写代码)
4. 网格搜索调参
5 from sklearn.linear_model import LinearRegression对比
"""
#导入用到的库
import sklearn.datasets as datasets
from sklearn.linear_model import LinearRegression  #线性回归模型
from sklearn.model_selection