线性回归---波士顿房价数据集（改）

最新推荐文章于 2024-05-20 11:33:53 发布

Cvjark

最新推荐文章于 2024-05-20 11:33:53 发布

阅读量1.7w

点赞数 5

文章标签：机器学习回归数据挖掘

本文链接：https://blog.csdn.net/weixin_43084928/article/details/82558337

版权

本文探讨了在波士顿房价数据集上应用线性回归时如何进行特征选择。通过反向淘汰方法，设定显著性阈值为0.05，逐步剔除P值较高的特征，直至所有剩余特征的P值都低于阈值。文中详细介绍了反向淘汰的过程，并展示了剔除不同特征后的模型效果。最终，所有保留下来的特征的P值均小于显著水平，提高了模型的简洁性和准确性。

摘要由CSDN通过智能技术生成

这里我们用到了特征筛，为什么要进行特征进行选择？
在一个数据集中，我们需要找出对因变量影响显著的变量，对于显著性较低的我们进行剔除，留下显著性高的特征把它们加入模型，从而使我们的模型复杂度更低，更加的简洁，准确。

这篇文章使用反向淘汰的方法来进行此项工作

反向淘汰步骤：

确定我们用来衡量显著性的一个阈值（决定取舍），这里我们取0.05
将所有的特征ALL IN到模型进行训练
计算出每个特征的P_value
将P_value最高的且高于显著水平的阈值的特征从模型训练中剔除
利用剩下的特征进行新一轮的拟合，如果存在P_value大于阈值，则返回4步，直到所有特征的P_value小于设定的阈值

关于P_value：
- p值是指在一个概率模型中，统计摘要（如两组样本均值差）与实际观测数据相同，或甚至更大这一事件发生的概率。换言之，是检验假设零假设成立或表现更严重的可能性。p值若与选定显著性水平（0.05或0.01）相比更小，则零假设会被否定而不可接受。然而这并不直接表明原假设正确。p值是一个服从正态分布的随机变量，在实际使用中因样本等各种因素存在不确定性。产生的结果可能会带来争议。
- 零假设（null hypothesis），统计学术语，又称原假设，指进行统计检验时预先建立的假设。零假设成立时，有关统计量应服从已知的某种概率分布。
当统计量的计算值落入否定域时，可知发生了小概率事件，应否定原假设。

数据集说明：

CRIM：城镇人均犯罪率。
ZN：住宅用地超过 25000 sq.ft. 的比例。
INDUS：城镇非零售商用土地的比例。
CHAS：查理斯河空变量（如果边界是河流，则为1；否则为0）。
NOX：一氧化氮浓度。
RM：住宅平均房间数。
AGE：1940 年之前建成的自用房屋比例。
DIS：到波士顿五个中心区域的加权距离。
RAD：辐射性公路的接近指数。
TAX：每 10000 美元的全值财产税率。
PTRATIO：城镇师生比例。
B：1000（Bk-0.63）^ 2，其中 Bk 指代城镇中黑人的比例。
LSTAT：人口中地位低下者的比例。
MEDV：自住房的平均房价，以千美元计。

#导入用到的库
import sklearn.datasets as datasets
import pandas as pd
import numpy as np
#载入数据集
Boston = datasets.load_boston()
# print(B

最低0.47元/天解锁文章

Cvjark

关注

5
点赞
踩
60

收藏

觉得还不错? 一键收藏
6
评论
线性回归---波士顿房价数据集（改）

多元线性回归：在回归分析中，如果有两个或两个以上的自变量，就称为多元回归。事实上，一种现象常常是与多个因素相联系的，由多个自变量的最优组合共同来预测或估计因变量，比只用一个自变量进行预测或估计更有效，更符合实际。因此多元线性回归比一元线性回归的实用意义更大。为什么要进行变量选择？在一个数据集中，我们需要找出对因变量影响显著的变量，对于显著性较低的我们进行剔除，留下显著性高的特征把它们加...
复制链接

扫一扫