多元线性回归和 R 平方

在此单元中,我们将多元线性回归与简单的线性回归进行对比。 我们还将介绍一个称为 R2 的指标,该指标通常用于评估线性回归模型的质量。

多元线性回归

多元线性回归将多个特征与单个变量之间的关系建模。 从数学上来说,它与简单的线性回归相同,通常使用相同的成本函数进行拟合,但具有更多特征。

此技术不是对单个关系进行建模,而是同时对多个关系进行建模,并将多个关系视为彼此独立。 例如,如果我们要根据狗的年龄和 body_fat_percentage 预测狗的生病程度,会发现两个关系:

  • 生病如何随年龄增加或减少
  • 生病如何随 body_fat_percentage 增加或减少

如果只使用两个特征,我们可以将模型可视化为平面的二维平面,就像我们可以将简单的线性回归建模为一条直线。 我们将在下一练习中探讨此问题。

多元线性回归具有假设

模型需要独立特征这一事实称为模型假设。 当模型假设不成立时,该模型可能会产生误导性预测。

例如,年龄可能会预测狗的生病程度,因为年龄较大的狗生病更多,还会告知狗是否学过如何玩飞盘;年龄较大的狗可能都知道如何玩飞盘。 如果我们在模型中采用年龄和 knows_frisbee 作为特征,它可能会告诉我们 knows_frisbee 是很好的生病预测指标,但低估了年龄的重要性。 这可能有点荒谬,因为知道如何玩飞盘不太可能会导致生病。 与此相反,dog_breed 也可能是一个好的生病预测指标,但没有理由相信年龄可以预测 dog_breed,因此,在模型中同时包含这两个特征是安全的。

拟合度:R2

我们知道,成本函数可用于评估模型与训练它的数据之间的拟合程度。 线性回归模型有一个特殊的相关度量值,称为 R2(“R 平方”)。 R2 是一个介于 0 和 1 之间的值,指示线性回归模型与数据的拟合程度。 当人们说到相关性较强时,通常意味着 R2 值较大。

R2 使用的数学方法不在本课程的讨论范围内,但我们可以直观地考虑它。 我们来看看前面的练习,其中介绍了年龄与 core_temperature 之间的关系。 R2 等于 1 表示年份可用来完美预测哪位患者的体温较高,哪位患者的体温较低。 相反,0 表示年份与体温之间不相关。

实际情况通常介于这两者之间。 我们的模型可能预测体温等于某个温度(因此,它比 R2 = 0 好),但点可能与此预测值稍有不同(因此它小于 R2=1)。

R2 只是方案的一半。

R2 值被广泛接受,但并不是可用于隔离的完美度量值。 它们有四项限制:

  • 鉴于 R2 的计算方式,因此样本越多,R2 值越大。 这可能会导致我们认为一个模型比另一个(相同的)模型好,原因仅仅是 R2 值是使用不同数量的数据计算的。
  • R2 值并不会告诉我们模型如何处理以前不可见的新数据。 统计学家通过计算补充度量值(称为 p 值)来解决此问题,此知识点本文不做介绍。 在机器学习中,我们通常会改为在另一个数据集上显式测试模型。
  • R2 值并不会告诉我们关系的方向。 例如,R2 值等于 0.8 不会告诉我们线是向上倾斜还是向下倾斜。 它也不会告诉我们线的斜率。

另外,请记住,对 R2 值“足够好”而言,没有通用标准。例如,在大多数物理学中,不太接近 1 的相关性不太可能被视为有用,而当将复杂系统的 R2 值建模为低至 0.3 时,可能会被视为极佳。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值