上一篇文章简单介绍了一下本文所使用的数据并读取数据。这一篇文章会进一步试探数据,加深对数据的理解。
3 统计分析
3.1数据描述
现在我们看一下这里面的数据。下表中是整个数据集中的前五个数据。AP(大气压强)、AT(环境温度)、PE(输出电量)、RH(湿度)、V(真空排气)。AP、AT、RH、V为输入变量,PE为输出变量。
AP | AT | PE | RH | V | |
---|---|---|---|---|---|
0 | 1024.07 | 14.96 | 463.26 | 73.17 | 41.76 |
1 | 1020.04 | 25.18 | 444.37 | 59.08 | 62.96 |
2 | 1012.16 | 5.11 | 488.56 | 92.14 | 39.40 |
3 | 1010.24 | 20.86 | 446.48 | 76.64 | 57.32 |
4 | 1009.23 | 10.82 | 473.90 | 96.62 | 37.50 |
下表是整个数据集的简单统计分析。从下表,可以看出整个数据集的个数、平均值、标准差、最小值、25%的数,50%的数、75%的数、最大值。
从下表中,我们可以知道整个数据集有47840条数据,AP的值为这五个变量中最大。AT的值是这五个变量中最小。PE平均值为454.37,输出的值比较大。输出值PE的波动比较大,而AP、AT的波动就较小。
AP | AT | PE | RH | V | |
---|---|---|---|---|---|
count | 47840 | 47840 | 47840 | 47840 | 47840 |
mean | 1013.259078 | 19.651231 | 454.365009 | 73.308978 | 54.305804 |
std | 5.938535 | 7.452162 | 17.066281 | 14.599658 | 12.707362 |
min | 992.890000 | 1.810000 | 420.260000 | 25.560000 | 25.360000 |
25% | 1009.100000 | 13.510000 | 439.750000 | 63.327500 | 41.740000 |
50% | 1012.940000 | 20.345000 | 451.550000 | 74.975000 | 52.080000 |
75% | 1017.260000 | 25.720000 | 468.430000 | 84.830000 | 66.540000 |
max | 1033.300000 | 37.110000 | 495.760000 | 100.160000 | 81.560000 |
下面看一下个数据之间的协方差。协方差,可以理解为两个不同参数之间的方差。若两个随机变量x和y相互独立,则Cover(X,Y)=E[X-E(X))(Y-E(Y))]=0,因而若上述数学期望不为0,则X和Y不是相互独立的,也可以称为他们之间存在某种关联。下表为数据之间的协方差矩阵。从下表我们可以看出,PE-AT,PE-V之间的关联挺大的。为了进一步求证,接下来观察一下变量之间的相关系数。
AP | AT | PE | RH | V | |
---|---|---|---|---|---|
AP | 35.266203 | -22.461558 | 52.542117 | 8.633152 | -31.204162 |
AT | 55.534713 | -120.583632 | -59.027235 | 79.934640 | |
PE | 291.257963 | 97.121830 | -188.627004 | ||
RH | 213.150024 | -57.917965 | |||
V | 161.477042 |
下表为各参数之间的相关系数。相关系数范围在(-1,1)之间,相关系数的绝对值越大,则参数之间的关联度也就越大。由下表可以看出,确实如上所言,AT-PE,PE-V的相关性最大,RH与PE的相关性最小。从表中也可以看出参数之间也是有相关性的。
AP | AT | PE | RH | V | |
---|---|---|---|---|---|
AP | 1.000000 | -0.507549 | 0.518429 | 0.099574 | -0.413502 |
AT | 1.000000 | -0.948128 | -0.542535 | 0.844107 | |
PE | 1.000000 | 0.389794 | -0.869780 | ||
RH | 1.000000 | -0.312187 | |||