统计系列一:描述统计


一切为了数据挖掘的准备

1.对连续变量数据的理论分析
1.1连续变量位置的度量
  • 平均数
  • 中位数
    按大小排序,排在中间的数;如果数据有偶数个,中间的两个数的平均数为中位数。
  • 众数
  • 百分位数
    按照大小排序。p百分位数的计算:i=(p/100)*n。如果i不是整数,i向上取整。第i项数就是p百分位数。
  • box图中的数据有:outlier,max(上限:Q3+1.5(Q3-Q1)),75分位(Q3),median(Q2),25分位(Q1),min(下限:Q1-1.5(Q3-Q1))
1.2变异程度的度量
  • 极差:最大值-最小值,max-min
  • 四分位数的间距:Q3-Q1,75百分位-25百分位。克服异常值的影响
  • 方差:
    • 总体方差: 1 n ∑ ( x i − E ( X ) ) 2 \frac{1}{n}\sum(x_i - E(X))^2 n1(xiE(X))2
    • 样本方差: 1 n − 1 ∑ ( x i − X ‾ ) 2 \frac{1}{n-1}\sum(x_i - \overline{X})^2 n11(xiX)2
  • 样本标准差S: S 2 \sqrt{S^2} S2
  • 标准差系数: S X ‾ ∗ 100 % \frac{S}{\overline{X}}*100\% XS100%
1.3标准化数值和切比雪夫定理
  • Z分数被认为是对数据集集中观测值相对位置的度量
    z = x − E ( X ) S z=\frac{x-E(X)}{S} z=SxE(X)

  • 经验法则:对于大部分观测值 x i x_i xi,z<3;当z > 3时, x i x_i xi为异常值

  • 切比雪夫定理: P ( ∣ Z ∣ &lt; ξ ) ≥ 1 − 1 ξ 2 P(|Z| &lt; \xi) \geq 1-\frac{1}{\xi^2} P(Z<ξ)1ξ21 即与平均数的距离在z个标准差之内的数据值所占比例至少为 1 − 1 z 2 1-\frac{1}{z^2} 1z21
    证明:
    P ( ∣ Z ∣ &lt; ξ ) = 1 − P ( ∣ Z ∣ ≥ ξ ) P(|Z| &lt; \xi) = 1- P(|Z| \geq \xi) P(Z<ξ)=1P(Zξ)

P ( ∣ Z ∣ ≥ ξ ) = P ( ∣ x − X ‾ σ ∣ ≥ ξ ) = ∫ ∣ x − X ‾ σ ∣ ≥ ξ f ( x ) d x ≤ ∫ ∣ x − X ‾ σ ∣ ≥ ξ ∣ x − X ‾ σ ∣ 2 / ξ 2 f ( x ) d x P(|Z| \geq \xi)=P(|\frac{x-\overline{X}}{\sigma}| \geq \xi)=\int_{|\frac{x-\overline{X}}{\sigma}| \geq \xi} f(x) d_x \leq \int_{|\frac{x-\overline{X}}{\sigma}| \geq \xi} |\frac{x-\overline{X}}{\sigma}|^2 /\xi^2 f(x) d_x P(Zξ)=P(σxXξ)=σxXξf(x)dxσxXξσxX2/ξ2f(x)dx

= 1 σ 2 ξ 2 ∫ ∣ x − X ‾ σ ∣ ≥ ξ ∣ x − X ‾ ∣ 2 f ( x ) d x ≤ 1 σ 2 ξ 2 ∫ ∣ x − X ‾ ∣ 2 f ( x ) d x = D ( X ) σ 2 ξ 2 = 1 ξ 2 = \frac{1}{\sigma^2 \xi^2}\int_{|\frac{x-\overline{X}}{\sigma}| \geq \xi} |x-\overline{X}|^2 f(x) d_x \leq \frac{1}{\sigma^2 \xi^2}\int |x-\overline{X}|^2 f(x) d_x = \frac{D(X)}{\sigma^2 \xi^2}=\frac{1}{\xi^2} =σ2ξ21σxXξxX2f(x)dxσ2ξ21xX2f(x)dx=σ2ξ2D(X)=ξ21

P ( ∣ Z ∣ ≥ ξ ) ≤ 1 ξ 2 P(|Z| \geq \xi) \leq \frac{1}{\xi^2} P(Zξ)ξ21

P ( ∣ Z ∣ &lt; ξ ) ≥ 1 − 1 ξ 2 P(|Z| &lt; \xi) \geq 1-\frac{1}{\xi^2} P(Z<ξ)1ξ21

  • 异常值检测
    • IQR = Q3-Q1,四分位数的间距
    • 下限:Q1 - 1.5*IQR
    • 上线:Q3 + 1.5*IQR
1.4 五数概括法-箱型图

箱型图中的数据:

  • 上限:Q3 + 1.5*IQR = Q3 + 1.5(Q3-Q1)
  • 下限:Q1 - 1.5*IQR = Q1 - 1.5(Q3-Q1)
  • Q1
  • Q2:median
  • Q3
  • outlier,不在上限和下限内的数据,异常值
1.5 两变量关系的度量
  • 协方差
    S X Y = 1 n − 1 ∑ ( x i − X ‾ ) ( y i − Y ‾ ) S_{XY} = \frac{1}{n-1} \sum(x_i-\overline{X})(y_i-\overline{Y}) SXY=n11(xiX)(yiY)
    协方差正负代表了x和y的关系,数值大小代表关系的强弱,但协方差受到数据计量单位的影响
  • 皮尔逊相关系数
    • r x y = S X Y S X S Y r_{xy} = \frac{S_{XY}}{S_XS_Y} rxy=SXSYSXY
    • rxy是相关系数
    • Sxy是协方差
    • Sx是x的标准差
    • Sy是y的标准差
      相关系数:正负代表了x和y的关系,数值大小代表了关系的强弱。相关系数提供了线性但不一定是因果关系的一个度量。

2.总体和样本的方差、标准差、关系计算
2.1 对全体
  • 方差
    D ( X ) = E ( ( X − X ‾ ) 2 ) = 1 n ∑ i n ( x i − X ‾ ) 2 D(X) = E((X- \overline{X})^2) = \frac{1}{n} \sum_i^n(x_i - \overline{X})^2 D(X)=E((XX)2)=n1in(xiX)2
  • 标准差
    D ( X ) \sqrt{D(X)} D(X)
  • 协方差
    c o v ( X , Y ) = E ( ( X − X ‾ ) ( Y − Y ‾ ) ) = 1 n ∑ ( x i − X ‾ ) ( y i − Y ‾ ) cov(X,Y) = E((X-\overline{X})(Y-\overline{Y}))=\frac{1}{n}\sum{(x_i-\overline{X})(y_i-\overline{Y})} cov(X,Y)=E((XX)(YY))=n1(xiX)(yiY)
  • 相关系数
    ρ = c o v ( X , Y ) D ( X ) D ( Y ) = E ( ( X − X ‾ ) ( Y − Y ‾ ) ) D ( X ) D ( Y ) = E ( X − X ‾ D ( X ) Y − Y ‾ D ( Y ) ) \rho = \frac{cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}=\frac{E((X-\overline{X})(Y-\overline{Y}))}{\sqrt{D(X)}\sqrt{D(Y)}} = E(\frac{X-\overline{X}}{\sqrt{D(X)}}\frac{Y-\overline{Y}}{\sqrt{D(Y)}}) ρ=D(X) D(Y) cov(X,Y)=D(X) D(Y) E((XX)(YY))=E(D(X) XXD(Y) YY)
2.2 对样本:
  • 方差
    S 2 = 1 n − 1 ∑ ( x i − X ‾ ) 2 S^2 = \frac{1}{n-1}\sum{(x_i - \overline{X})^2} S2=n11(xiX)2
  • 标准差
    S = S 2 S = \sqrt{S^2} S=S2
  • 协方差
    S X Y = 1 n − 1 ∑ ( x i − X ‾ ) ( y i − Y ‾ ) S_{XY} = \frac{1}{n-1} \sum(x_i-\overline{X})(y_i-\overline{Y}) SXY=n11(xiX)(yiY)
  • 皮尔逊相关系数
    r x y = S X Y S X S Y r_{xy} = \frac{S_{XY}}{S_XS_Y} rxy=SXSYSXY
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值