数据的描述性分析

最新推荐文章于 2022-03-24 15:30:50 发布

花繁四季

最新推荐文章于 2022-03-24 15:30:50 发布

阅读量1.7k

点赞数

分类专栏：数学建模文章标签：数据分析统计学

本文链接：https://blog.csdn.net/qq_43221336/article/details/106537854

版权

数学建模专栏收录该内容

12 篇文章 6 订阅

订阅专栏

描述统计内容包括：统计数据的收集方法、数据的加工处理方法、数据的显示方法、数据分布特征的概括与分析方法等。
分析数据的主要特征：集中程度、分散程度、数据的分布是正态还是偏态等。多元数据还要分析各个变量之间的相关性等。
单变量数据的数字特征：

均值： $\bar{X}=\cfrac 1n\sum_{i=1}^nx_i$ 表示数据的集中位置
方差： $S^2=\cfrac{1}{n-1}\sum_{i=1}^n\left(x_i-\bar{x}\right)^2$ 表示数据的分散程度
变异系数： $CV=100\times\cfrac{S}{\bar{X}}\quad(\%)$ 表示数据相对分散程度

偏度和峰度是刻画数据偏态、尾重程度的度量，与数据的矩有关系

K阶原点矩： $V_k=\cfrac1n\sum_{i=1}^{n}x_i^k$ 一阶原点矩即均值
K阶中心距： $u_k=\cfrac1n\sum_{i=1}^{n}(x_i-\bar{x})^k$ 二阶中心距即方差
偏度： $g_{1}=\cfrac{n \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{3}}{(n-1)(n-2) S^{3}}=\cfrac{n^{2} u^{3}}{(n-1)(n-2) S^{3}}$ 刻画数据对称性。当数据关于均值对称时为0，右偏时大于0，左偏时小于0
峰度： $g_{2}=\cfrac{n(n+1)}{(n-1)(n-2)(n-3) S^{4}} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{4}-3 \cfrac{(n-1)^{2}}{(n-2)(n-3)}$ 刻画数据尾重程度。数据总体为正态分布时为0，两侧极端数据较多时为正，否则为负

p分位数： $M_p=\begin{cases} x_{[np]+1}&\text np不是整数\\\cfrac12(x_{np}+x_{np+1}) &\text np是整数\end{cases}$
$M_1=x(n)$ 最大值， $M_0=x(1)$ 最小值， $M_{0.5}=M$ 中位数， $M_{0.25}=Q_1$ 下四分位数， $M_{0.75}=Q_3$ 上四分位数。

四分位数极差： $R=Q_3-Q_1$ 度量样本分散性。对于有异常值的数据也具有稳健性
下、上截断点： $Q_1-1.5R$ ， $Q_3+1.5R$ ，大于上截断点的为特大值，小于下截断点的为特小值，两者均为异常值
三均值： $\hat{M}=\cfrac14Q+\cfrac12M+\cfrac14Q_3$ 数据中心位置的数字特征

单变量数据的分布图：
为分析数据总体分布，常绘制直方图、累计分布图（分布函数）、QQ图、箱线图。其中QQ图为对目标累计分布函数值求标准正态分布累计分布函数的逆，若所有点基本上在一条直线上，我们可以说这两个分布是同一分布。
正态性检验是分布拟合检验中最重要的一种，可通过单样本K-S来检验分布是否为正态分布。

多元数据的数字特征与相关分析：
对二元总体 $(X, Y)$ ，相关系数包括：

变量x,y观测数据的协方差： $S_{xy}=\cfrac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})$
协方差矩阵： $S=\begin{bmatrix} S_{xx}& S_{xy} \\ S_{yx} & S_{yy} \end{bmatrix}$ （对称阵）
相关系数（Pearson相关系数）： $r_{xy}=\cfrac{S_{xy}}{\sqrt{S_{xx}}\sqrt{S_{yy}}}\qquad|r_{xy}|\le1$
Spearman相关系数要求两个变量的观测值是成对的，每对观测值间相互独立，两个变量的总体来自正态分布，且实验数据间的差距不能相差太大，即该相关系数受到异常值的影响较大。
秩相关系数（Spearman相关系数）： $\rho=1-\cfrac{6\sum_{i=1}^nd_i^2}{n(n^2-1)}$
“秩”意为顺序，即将变量 $X, Y$ 的数据进行排序，得到每个变量排序后的位置，对每组 $x_i,y_i$ 的秩相减得到秩次的差值 $d_i$ ，Spearman相关系数受异常值的影响很小。

在计算相关系数的同时，会计算样本的显著性水平，即P值。如果不显著，相关系数再高也没用，可能只是因为偶然因素引起的。通常需要p值小于0.1，最好小于0.05甚至0.01，才可得出结论：两组数据有明显关系。如果p=0.5，远大于0.1，只能说明相关程度不明显甚至不相关，起码不是线性相关。

花繁四季

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
数据的描述性分析

描述统计内容包括：统计数据的收集方法、数据的加工处理方法、数据的显示方法、数据分布特征的概括与分析方法等。分析数据的主要特征：集中程度、分散程度、数据的分布是正态还是偏态等。多元数据还要分析各个变量之间的相关性等。单变量数据的数字特征：均值：Xˉ=1n∑i=1nxi\bar{X}=\cfrac 1n\sum_{i=1}^nx_iXˉ=n1∑i=1nxi 表示数据的集中位置方差：S2=1n−1∑i=1n(xi−xˉ)2S^2=\cfrac{1}{n-1}\sum_{i=1}^n\left(x_
复制链接

扫一扫