0304线性回归(多变量)-基于波士顿房产数据集

本文介绍了使用波士顿房产数据集进行多变量线性回归的分析过程。通过对数据集的预处理,包括数据标准化,提高了模型的拟合优度达到63.5%。讨论了在处理DataFrame数据时的注意事项,如切片操作和数据标签设置,并解释了在数据划分后如何恢复索引顺序。最后,提到了网格搜索作为调参的一种方法,详细阐述了其工作原理。
摘要由CSDN通过智能技术生成

1、首先对波士顿房产数据集进行分析

CRIM: 城镇人均犯罪率
ZN: 住宅用地所占比例
INDUS: 城镇中非住宅用地所占比例
CHAS: 查尔斯河(Charles River)变量(若土地位于河流边界,则为 1;否则为 0)
NOX: 环保指数
RM: 每栋住宅的房间数
AGE: 1940 年以前建成的自住单位的比例
DIS: 距离 5 个波士顿的就业中心的加权距离。
RAD: 距离高速公路的便利指数
TAX: 每一万美元的不动产税率
PRTATIO: 城镇中的教师学生比例
B: 城镇中的黑人比例
LSTAT: 地区中有多少房东属于低收入人群
MEDV: 自住房屋房价中位数

通过分析,可知CRIM、ZN、INDUS、NOX、AGE、RAD、TAX、PRTATIO、B是相对数,而
RM、DIS、LSTAT、MEDV是绝对数,其中CHAS是虚拟变量。对于多变量问题,需要将这些特征都具有相近的尺度,可通过数据标准化处理,可帮助梯度下降更快的收敛。
常用的数据标准化方法有三种:

  • 规范化方法
    在这里插入图片描述
  • 正规化方法
    在这里插入图片描述
  • 归一化方法
    在这里插入图片描述
    2、实战
"""
日期:20190305
任务四
1. 波士顿房产数据(完整数据)
2. 实现多变量(手写代码)
3. 数据标准化(手写代码)
4. 网格搜索调参
5 from sklearn.linear_model import LinearRegression对比
"""
#导入用到的库
import sklearn.datasets as datasets
from sklearn.linear_model import LinearRegression  #线性回归模型
from sklearn.model_selection 
  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值