9.回归中的相关度和决定系数

起步

训练集中可能有若干维度的特征。但有时并不是所有特征都是有用的,有的特征其实和结果并没有关系。因此需要一个能衡量自变量和因变量之间的相关度。

皮尔逊相关系数

皮尔逊相关系数( Pearson correlation coefficient),是用于度量两个变量 X 和 Y 之间的相关(线性相关),其值介于 -1 与 1 之间。

在说皮尔逊相关系数之前,要先理解协方差( Covariance ) ,协方差是一个反映两个随机变量相关程度的指标,如果一个变量跟随着另一个变量同时变大或者变小,那么这两个变量的协方差就是正值,反之相反,公式如下:

相关度越高,皮尔逊相关系数其值趋于 1 或 -1 (趋于1表示它们呈正相关, 趋于 -1 表示它们呈负相关);如果相关系数等于0,表明它们之间不存在线性相关关系。

 对应的python实现

import math
import numpy a
  • 2
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
首尔自行车数据分析 R首尔共享单车需求数据集的回归分析 • 执行模型分析以预测每小时所需的自行车数量,以确保租赁自行车的稳定供应 • 使用 R、机器学习和统计建模技术 导言:数据集的背景/动机 目前,许多主要城市都引入了租赁自行车,以提高机动性、舒适性和环保交通。重要的是要让公众在适当的时候可以使用和使用租赁自行车,因为这可以缩短等待时间。最终,为城市提供稳定的租赁自行车供应是一个主要问题。有许多因素,如温度、一天的时间、假期、季节等,可能会影响自行车的可用性。关键部分是预测每小时所需的自行车数量,以稳定租赁自行车的供应。 使用天气数据[1]的首尔自行车共享需求预测的基于规则的模型使用了两个数据集——首尔自行车和首都自行车共享计划。它给出了5个统计模型的结果,这些模型使用重复交叉验证方法用优化的超参数进行训练,并使用测试集进行评估:(a)立方体(b)正则化随机森林(c)分类和回归树(d)K近邻(e)条件推理树。使用R2、均方根误差、平均绝对误差和变异系数等多重评估指标来衡量回归模型的预测性能。结果表明,基于规则的CUBIST模型能够解释汉城自行车测试集约95%的方差(R2)。对所有开发的模型进行了变量重要性分析,以分析最重要的变量。这些模型表明,温度和一天的小时数是小时租赁自行车需求预测最有影响的变量。 Cubist模型是在Quinlan的M5模型树的基础上引入的,该模型树创建了一系列“if-after-after”规则,其每个规则都有一个相关的线性多元模型。立体主义模型的好处在于,它是一种可行的回归方法,可以应用于各种问题。 在预测自行车共享需求的回归模型[2],他们对汉城自行车数据集应用了回归模型,得出的值为0.567,表明线性回归能够确定56.7%的自行车租赁数量变化。研究论文指出,低R平方值的回归模型可能是非常好的模型,原因有几个,因为某些研究领域存在大量无法解释的内在差异。在这些区域,R2值必然较低。 如果一个人的R平方值较低,但自变量在统计上具有显著性,那么仍然可以得出关于变量之间关系的重要结论。正如本文所观察到的,0.56是一个相对较低的值,但统计显著性有助于更好地了解影响自行车租赁数量的因素。从数据集提取更好的结果和模式的进一步范围包括实现高级算法,如分类树、随机森林、K近邻。 在这个项目,我们的目标是使用统计数据来确定哪些因素导致每小时租赁自行车的最佳供应。例如,如果温度太高,能见度差,我们将供应少量的自行车,因为需求会减少。如果我们的模型成功,它将允许自行车所有者和管理者决定在任何给定时间租用的自行车数量。自行车使用者也将体验到友好舒适的服务。
### 回答1: 回归问题是利用已知的自变量来预测一个连续的因变量。对于文件solarenergy.csv的太阳能相关数据,可以根据气象要素和时间等变量来建立回归模型。 首先,需要对数据进行预处理和特征工程。可以根据需要选择的气象要素,例如光照强度、温度、湿度等作为自变量,时间作为一个额外的自变量。可以通过统计方法或者数据可视化来探索这些变量与太阳能产量之间的关系。 然后,选择合适的回归算法来建立模型。常见的回归算法包括线性回归、多项式回归、岭回归等。根据数据的特点和问题的需求,选择适合的算法进行建模。 接下来,使用建立的回归模型对未知的数据进行预测。可以使用交叉验证等方法来评估模型的性能,并对模型进行调优。 最后,根据模型的预测结果可以进行进一步的分析和应用。例如,可以通过模型预测太阳能产量,来优化太阳能发电的策略和运营管理。 需要注意的是,太阳能相关数据可能受到多个因素的影响,不仅仅限于气象要素和时间。在建立回归模型时,需要考虑到可能的共线性、非线性关系以及其他可能的影响因素。此外,数据的质量和可靠性也是建立模型时需要重点关注的方面。 ### 回答2: 息预测太阳能发电量。 回归问题是指根据已有的数据,建立一个数学模型来预测或估计结果。对于文件solarenergy.csv,我们可以利用其的气象要素和时间等信息来预测太阳能的发电量。 首先,我们可以对数据进行初步的观察和分析,了解数据的特征和分布情况。通过绘制散点图或者相关系数矩阵,可以判断不同气象要素与太阳能发电量之间的关系。 接下来,我们可以选择合适的回归模型来建立预测模型。对于线性关系,可以选择线性回归模型。对于非线性关系,可以选择多项式回归模型或其他非线性回归模型。 然后,我们将数据集分为训练集和测试集,利用训练集对回归模型进行拟合和训练,并利用测试集对模型进行评估。 在模型评估过程,常用的指标包括均方误差(Mean Square Error, MSE)、决定系数(Coefficient of Determination, R-squared)等。如果模型的预测效果良好,那么在测试集上的预测结果与真实值会很接近,相应的指标数值也会较高。 最后,我们可以利用所建立的回归模型来对新的未知数据进行预测,得到太阳能发电量的估计值。 需要注意的是,回归问题对数据的质量和特征工程要求较高,我们可以对数据进行缺失值处理、异常值处理、标准化等操作,以提高模型预测的精度和准确性。 总之,通过使用回归分析方法,我们可以根据气象要素和时间等信息来预测太阳能发电量,为太阳能行业的发展提供参考和决策依据。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值