python多元线性回归mlr 校正_机器学习:Python实现多元线性回归

多元线性回归试图通过将线性方程拟合到观测数据来模拟两个或更多个解释变量与响应变量之间的关系。自变量x的每个值与因变量y的值相关联。

在最小二乘模型中,通过最小化从每个数据点到线的垂直偏差的平方和来计算观测数据的最佳拟合线(如果点恰好位于拟合线上,则其垂直偏差是0)。因为偏差是平方,然后求和,所以在正值和负值之间没有取消。最小二乘估计b0,b1,... bp通常由统计软件计算。

方差可以通过以下体例估算:

机器学习:Python实现多元线性回归-1.jpg (413 Bytes, 下载次数: 0)

2018-9-1 14:48 上传

也称为均方误差(或MSE)。

标准误差s的估计是MSE的平方根。

所以这里我们处于SLR的相同情况,是对b和x的组合,这取决于我们考虑的变量的数量,我们有很多可以与我们的dipendent变量相关的回归变量。在我们构建LR模型之前快速了解线性回归:我们需要检查某些假设是否正确。因此,如果我们需要构建LR,我们必须确保验证这些假设:

机器学习:Python实现多元线性回归-2.jpg (29.91 KB, 下载次数: 0)

2018-9-1 14:48 上传

当我们确定这些假设获得验证时,我们如何措置MLR中的虚拟变量?在这种情况下,虚拟变量将是状态/位置变量。正如我们为MLR所写的那样,我们首先编写公式:

机器学习:Python实现多元线性回归-3.jpg (13.92 KB, 下载次数: 0)

2018-9-1 14:48 上传

既然它不是一个数值,我们应该把状态放在这里?状态实际上是一个分类变量,因此我们不克不及将它添加到我们的等式中,我们需要对这种情况做一些事情,并且我们需要采取来措置分类变量的appraoch来建立虚拟变量。在这种情况下,我们有两个类别,我们需要建立一个新列并扩展我们的数据集。可是我们如何填充列?在这种情况下,我们将为纽约添加1,为加利福尼亚添加0,因此我们最终获得一个模型; 我们需要做的就是使用new york列并添加一个等于1的新变量D1(New York)和等于0的D1(California)。纽约列作为一个开关:如果它是1,我们知道是New York,如果它的0是California。因此,虚拟变量用作开关,并且不需要任何其他变量。当你研究这种体例时,它可能看起来有biased,因为对加利福尼亚我们没有任何系数,但实际情况并不是如此,因为LR工作的体例是它会考虑不包含在默认情况下的状态所以基本上加利福尼亚的系数是将在costant b0中被包含,并且默认情况下当D1等于0时,等式将酿成加利福尼亚的等式。所以我们不克不及在我们的模型中同时包含这两个变量。如果我们这样做会怎么样?我们将一个变量复制为D2等于1 - D1并且会引发一个变量多线性问题,我们的模型无法正确识别我们的变量。这被称为虚拟陷阱,每次我们构机器学习建模型时,我们必须记住默认情况下始终考虑1个虚拟变量,因此如果我们有9个变量,我们应该只在公式中包含8个。

机器学习:Python实现多元线性回归-4.jpg (40.67 KB, 下载次数: 0)

2018-9-1 14:48 上传

另外,我们如何优化我们的模型,因为我们有许多预测因子?我们需要决定我们要保存哪一个,因为如果我们考虑太多信息,我将成为垃圾模型。在模型优化中,我们可以实现5种主

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值