案例1.4 三个产业生产总值的描述性分析
一、需求:
分析三个产业总值之间的关系以及生产总值分布的特征。要求通过本案例的学习,学会分析数据,选择合理的图形对数据进行展示和描述。熟练掌握各描述统计量的特点和应用条件,并能选择合适的统计量对数据进行分析。
二、案例分析
- 三个产业生产总值的相关性分析
散点矩阵图(也称SPLOM,或Scatterplot Matrix):当欲同时考察多个变量间的相关关系时,若一一绘制它们间的简单散点图,十分麻烦。此时可利用散点图矩阵来同时绘制各自变量间的散点图,这样可以快速发现多个变量间的主要相关性,这一点在进行多元线性回归时显得尤为重要。许多统计语言里面都有非常方便的函数生成散点图矩阵,比如说R。python的seaborn库。
其实seaborn库生成的散点图矩阵不是常规的散点图矩阵,其斜对角标注的不是列名,而是该列的概率密度分布图。这倒无妨,我们依然可以通过整个矩阵图进行分析判断。
[外链图片转存失败(img-xNaCnmDS-1568554576067)(C:\Users\13326\Desktop\统计案例分析1.4\讲课\Scatterplot Matrix.png)]
从散点图矩阵可以看出,三个产业的生产总值之间都存在某种程度的线性相关关系,其中可以明显地看到第二产业和第三产业线性关系更加明显。可以计算三产业间的相关系数,作相关系数热力图进一步检验。
**热力图:**python的热力图是用皮尔逊相关系数来查看两者之间的关联性。
[外链图片转存失败(img-UeYeW0vF-1568554576069)(C:\Users\13326\Desktop\统计案例分析1.4\讲课\corr.png)]
由相关关系的热力图可以看出,第二产业和第三产业的相关关系达到0.94,进一步印证了散点图矩阵的得到的结果,为进一步分析三个产业之间关系强度,除了给出各相关系数外,还应该给出其检验结果。
import scipy.stats as stats
#输出结果第一个值为pearsonr相关系数,
#第二个为p-value
corr1=stats.pearsonr(data.iloc[:,0],data.iloc[:,1])
corr2=stats.pearsonr(data.iloc[:,1],data.iloc[:,2])
corr3=stats.pearsonr(data.iloc[:,0],data.iloc[:,2])
0 | 1 | |
---|---|---|
one-two | 0.733114 | 2.723853e-06 |
two-three | 0.939913 | 4.541524e-15 |
one-three | 0.598270 | 3.781602e-04 |
由上表可以可以看出,相关系数显著性检验的p_value都是很小的 ,故三产业之间均存在显著的线性相关关系。
- 三个产业生产总值分布特征的分析
箱形图(Box-plot):又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。在各种领域也经常被使用,常见于品质管理。它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比 较。
[外链图片转存失败(img-W2DFBFnN-1568554576070)(C:\Users\13326\Desktop\统计案例分析1.4\讲课\boxplot.png)]
由箱线图可以清晰地看到,第二、三产业存在离群点,且分布明显不对称,存在明显的右偏。第一产业情况稍好,右偏幅度不大。
分位数图示法(Quantile Quantile Plot,简称 Q-Q 图):
统计学里Q-Q图(Q代表分位数)是一个概率图,用图形的方式比较两个概率分布,把它们的两个分位数放在一起比较。Q-Q图有两个作用:1、检验一组数据是否服从某一分布。2、检验两个分布是否服从同一分布。
[外链图片转存失败(img-mLN1EpVJ-1568554576071)(C:\Users\13326\Desktop\统计案例分析1.4\讲课\Q-Q.png)]
描述性统计:
one | two | three | three |
---|---|---|---|
count | 31 | 31 | 31 |
mean | 2088.199 | 12139.381 | 15279.106 |
medi |