统计系列一：描述统计

最新推荐文章于 2023-02-08 12:28:16 发布

ErinLiu虎哥的铲屎员

最新推荐文章于 2023-02-08 12:28:16 发布

阅读量355

点赞数

分类专栏：统计系列文章标签：统计

本文链接：https://blog.csdn.net/liuerin/article/details/88885158

版权

统计系列专栏收录该内容

2 篇文章 0 订阅

订阅专栏

描述统计量

一切为了数据挖掘的准备

1.对连续变量数据的理论分析

1.1连续变量位置的度量

平均数
中位数
按大小排序，排在中间的数；如果数据有偶数个，中间的两个数的平均数为中位数。
众数
百分位数
按照大小排序。p百分位数的计算：i=(p/100)*n。如果i不是整数，i向上取整。第i项数就是p百分位数。
box图中的数据有：outlier,max(上限：Q3+1.5(Q3-Q1)),75分位(Q3)，median(Q2),25分位(Q1),min(下限：Q1-1.5(Q3-Q1))

1.2变异程度的度量

极差：最大值-最小值,max-min
四分位数的间距：Q3-Q1,75百分位-25百分位。克服异常值的影响
方差：
- 总体方差： $\frac{1}{n}\sum(x_i - E(X))^2$
- 样本方差： $\frac{1}{n-1}\sum(x_i - \overline{X})^2$
样本标准差S: $\sqrt{S^2}$
标准差系数: $\frac{S}{\overline{X}}*100\%$

1.3标准化数值和切比雪夫定理

Z分数被认为是对数据集集中观测值相对位置的度量
$z=\frac{x-E(X)}{S}$
经验法则：对于大部分观测值 $x_i$ ,z<3；当z > 3时， $x_i$ 为异常值
切比雪夫定理： $\xi) \geq 1-\frac{1}{\xi^2}$ 即与平均数的距离在z个标准差之内的数据值所占比例至少为 $1-\frac{1}{z^2}$
证明：
$\xi) = 1- P(|Z| \geq \xi)$

$\geq \xi)=P(|\frac{x-\overline{X}}{\sigma}| \geq \xi)=\int_{|\frac{x-\overline{X}}{\sigma}| \geq \xi} f(x) d_x \leq \int_{|\frac{x-\overline{X}}{\sigma}| \geq \xi} |\frac{x-\overline{X}}{\sigma}|^2 /\xi^2 f(x) d_x$

$\frac{1}{\sigma^2 \xi^2}\int_{|\frac{x-\overline{X}}{\sigma}| \geq \xi} |x-\overline{X}|^2 f(x) d_x \leq \frac{1}{\sigma^2 \xi^2}\int |x-\overline{X}|^2 f(x) d_x = \frac{D(X)}{\sigma^2 \xi^2}=\frac{1}{\xi^2}$

$\geq \xi) \leq \frac{1}{\xi^2}$

$\xi) \geq 1-\frac{1}{\xi^2}$

异常值检测
- IQR = Q3-Q1，四分位数的间距
- 下限：Q1 - 1.5*IQR
- 上线：Q3 + 1.5*IQR

1.4 五数概括法-箱型图

箱型图中的数据：

上限：Q3 + 1.5*IQR = Q3 + 1.5(Q3-Q1)
下限：Q1 - 1.5*IQR = Q1 - 1.5(Q3-Q1)
Q1
Q2:median
Q3
outlier,不在上限和下限内的数据,异常值

1.5 两变量关系的度量

协方差
$S_{XY} = \frac{1}{n-1} \sum(x_i-\overline{X})(y_i-\overline{Y})$
协方差正负代表了x和y的关系，数值大小代表关系的强弱，但协方差受到数据计量单位的影响
皮尔逊相关系数
- $r_{xy} = \frac{S_{XY}}{S_XS_Y}$
- rxy是相关系数
- Sxy是协方差
- Sx是x的标准差
- Sy是y的标准差
  相关系数：正负代表了x和y的关系，数值大小代表了关系的强弱。相关系数提供了线性但不一定是因果关系的一个度量。

2.总体和样本的方差、标准差、关系计算

2.1 对全体

方差
$\overline{X})^2) = \frac{1}{n} \sum_i^n(x_i - \overline{X})^2$
标准差
$\sqrt{D(X)}$
协方差
$E((X-\overline{X})(Y-\overline{Y}))=\frac{1}{n}\sum{(x_i-\overline{X})(y_i-\overline{Y})}$
相关系数
$\rho = \frac{cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}=\frac{E((X-\overline{X})(Y-\overline{Y}))}{\sqrt{D(X)}\sqrt{D(Y)}} = E(\frac{X-\overline{X}}{\sqrt{D(X)}}\frac{Y-\overline{Y}}{\sqrt{D(Y)}})$