scikit-learn初探:多种回归方法建立预测电力输出模型(二)

上一篇文章简单介绍了一下本文所使用的数据并读取数据。这一篇文章会进一步试探数据,加深对数据的理解。

3 统计分析

3.1数据描述

  现在我们看一下这里面的数据。下表中是整个数据集中的前五个数据。AP(大气压强)、AT(环境温度)、PE(输出电量)、RH(湿度)、V(真空排气)。AP、AT、RH、V为输入变量,PE为输出变量。

AP AT PE RH V
0 1024.07 14.96 463.26 73.17 41.76
1 1020.04 25.18 444.37 59.08 62.96
2 1012.16 5.11 488.56 92.14 39.40
3 1010.24 20.86 446.48 76.64 57.32
4 1009.23 10.82 473.90 96.62 37.50

  下表是整个数据集的简单统计分析。从下表,可以看出整个数据集的个数、平均值、标准差、最小值、25%的数,50%的数、75%的数、最大值。
  从下表中,我们可以知道整个数据集有47840条数据,AP的值为这五个变量中最大。AT的值是这五个变量中最小。PE平均值为454.37,输出的值比较大。输出值PE的波动比较大,而AP、AT的波动就较小。

AP AT PE RH V
count 47840 47840 47840 47840 47840
mean 1013.259078 19.651231 454.365009 73.308978 54.305804
std 5.938535 7.452162 17.066281 14.599658 12.707362
min 992.890000 1.810000 420.260000 25.560000 25.360000
25% 1009.100000 13.510000 439.750000 63.327500 41.740000
50% 1012.940000 20.345000 451.550000 74.975000 52.080000
75% 1017.260000 25.720000 468.430000 84.830000 66.540000
max 1033.300000 37.110000 495.760000 100.160000 81.560000

  下面看一下个数据之间的协方差。协方差,可以理解为两个不同参数之间的方差。若两个随机变量x和y相互独立,则Cover(X,Y)=E[X-E(X))(Y-E(Y))]=0,因而若上述数学期望不为0,则X和Y不是相互独立的,也可以称为他们之间存在某种关联。下表为数据之间的协方差矩阵。从下表我们可以看出,PE-AT,PE-V之间的关联挺大的。为了进一步求证,接下来观察一下变量之间的相关系数。

AP AT PE RH V
AP 35.266203 -22.461558 52.542117 8.633152 -31.204162
AT 55.534713 -120.583632 -59.027235 79.934640
PE 291.257963 97.121830 -188.627004
RH 213.150024 -57.917965
V 161.477042

  下表为各参数之间的相关系数。相关系数范围在(-1,1)之间,相关系数的绝对值越大,则参数之间的关联度也就越大。由下表可以看出,确实如上所言,AT-PE,PE-V的相关性最大,RH与PE的相关性最小。从表中也可以看出参数之间也是有相关性的。

AP AT PE RH V
AP 1.000000 -0.507549 0.518429 0.099574 -0.413502
AT 1.000000 -0.948128 -0.542535 0.844107
PE 1.000000 0.389794 -0.869780
RH 1.000000 -0.312187
  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值