描述统计量
一切为了数据挖掘的准备
1.对连续变量数据的理论分析
1.1连续变量位置的度量
- 平均数
- 中位数
按大小排序,排在中间的数;如果数据有偶数个,中间的两个数的平均数为中位数。 - 众数
- 百分位数
按照大小排序。p百分位数的计算:i=(p/100)*n。如果i不是整数,i向上取整。第i项数就是p百分位数。 - box图中的数据有:outlier,max(上限:Q3+1.5(Q3-Q1)),75分位(Q3),median(Q2),25分位(Q1),min(下限:Q1-1.5(Q3-Q1))
1.2变异程度的度量
- 极差:最大值-最小值,max-min
- 四分位数的间距:Q3-Q1,75百分位-25百分位。克服异常值的影响
- 方差:
- 总体方差: 1 n ∑ ( x i − E ( X ) ) 2 \frac{1}{n}\sum(x_i - E(X))^2 n1∑(xi−E(X))2
- 样本方差: 1 n − 1 ∑ ( x i − X ‾ ) 2 \frac{1}{n-1}\sum(x_i - \overline{X})^2 n−11∑(xi−X)2
- 样本标准差S: S 2 \sqrt{S^2} S2
- 标准差系数: S X ‾ ∗ 100 % \frac{S}{\overline{X}}*100\% XS∗100%
1.3标准化数值和切比雪夫定理
-
Z分数被认为是对数据集集中观测值相对位置的度量
z = x − E ( X ) S z=\frac{x-E(X)}{S} z=Sx−E(X) -
经验法则:对于大部分观测值 x i x_i xi,z<3;当z > 3时, x i x_i xi为异常值
-
切比雪夫定理: P ( ∣ Z ∣ < ξ ) ≥ 1 − 1 ξ 2 P(|Z| < \xi) \geq 1-\frac{1}{\xi^2} P(∣Z∣<ξ)≥1−ξ21 即与平均数的距离在z个标准差之内的数据值所占比例至少为 1 − 1 z 2 1-\frac{1}{z^2} 1−z21
证明:
P ( ∣ Z ∣ < ξ ) = 1 − P ( ∣ Z ∣ ≥ ξ ) P(|Z| < \xi) = 1- P(|Z| \geq \xi) P(∣Z∣<ξ)=1−P(∣Z∣≥ξ)
P ( ∣ Z ∣ ≥ ξ ) = P ( ∣ x − X ‾ σ ∣ ≥ ξ ) = ∫ ∣ x − X ‾ σ ∣ ≥ ξ f ( x ) d x ≤ ∫ ∣ x − X ‾ σ ∣ ≥ ξ ∣ x − X ‾ σ ∣ 2 / ξ 2 f ( x ) d x P(|Z| \geq \xi)=P(|\frac{x-\overline{X}}{\sigma}| \geq \xi)=\int_{|\frac{x-\overline{X}}{\sigma}| \geq \xi} f(x) d_x \leq \int_{|\frac{x-\overline{X}}{\sigma}| \geq \xi} |\frac{x-\overline{X}}{\sigma}|^2 /\xi^2 f(x) d_x P(∣Z∣≥ξ)=P(∣σx−X∣≥ξ)=∫∣σx−X∣≥ξf(x)dx≤∫∣σx−X∣≥ξ∣σx−X∣2/ξ2f(x)dx
= 1 σ 2 ξ 2 ∫ ∣ x − X ‾ σ ∣ ≥ ξ ∣ x − X ‾ ∣ 2 f ( x ) d x ≤ 1 σ 2 ξ 2 ∫ ∣ x − X ‾ ∣ 2 f ( x ) d x = D ( X ) σ 2 ξ 2 = 1 ξ 2 = \frac{1}{\sigma^2 \xi^2}\int_{|\frac{x-\overline{X}}{\sigma}| \geq \xi} |x-\overline{X}|^2 f(x) d_x \leq \frac{1}{\sigma^2 \xi^2}\int |x-\overline{X}|^2 f(x) d_x = \frac{D(X)}{\sigma^2 \xi^2}=\frac{1}{\xi^2} =σ2ξ21∫∣σx−X∣≥ξ∣x−X∣2f(x)dx≤σ2ξ21∫∣x−X∣2f(x)dx=σ2ξ2D(X)=ξ21
P ( ∣ Z ∣ ≥ ξ ) ≤ 1 ξ 2 P(|Z| \geq \xi) \leq \frac{1}{\xi^2} P(∣Z∣≥ξ)≤ξ21
P ( ∣ Z ∣ < ξ ) ≥ 1 − 1 ξ 2 P(|Z| < \xi) \geq 1-\frac{1}{\xi^2} P(∣Z∣<ξ)≥1−ξ21
- 异常值检测
- IQR = Q3-Q1,四分位数的间距
- 下限:Q1 - 1.5*IQR
- 上线:Q3 + 1.5*IQR
1.4 五数概括法-箱型图
箱型图中的数据:
- 上限:Q3 + 1.5*IQR = Q3 + 1.5(Q3-Q1)
- 下限:Q1 - 1.5*IQR = Q1 - 1.5(Q3-Q1)
- Q1
- Q2:median
- Q3
- outlier,不在上限和下限内的数据,异常值
1.5 两变量关系的度量
- 协方差
S X Y = 1 n − 1 ∑ ( x i − X ‾ ) ( y i − Y ‾ ) S_{XY} = \frac{1}{n-1} \sum(x_i-\overline{X})(y_i-\overline{Y}) SXY=n−11∑(xi−X)(yi−Y)
协方差正负代表了x和y的关系,数值大小代表关系的强弱,但协方差受到数据计量单位的影响 - 皮尔逊相关系数
- r x y = S X Y S X S Y r_{xy} = \frac{S_{XY}}{S_XS_Y} rxy=SXSYSXY
- rxy是相关系数
- Sxy是协方差
- Sx是x的标准差
- Sy是y的标准差
相关系数:正负代表了x和y的关系,数值大小代表了关系的强弱。相关系数提供了线性但不一定是因果关系的一个度量。
2.总体和样本的方差、标准差、关系计算
2.1 对全体
- 方差
D ( X ) = E ( ( X − X ‾ ) 2 ) = 1 n ∑ i n ( x i − X ‾ ) 2 D(X) = E((X- \overline{X})^2) = \frac{1}{n} \sum_i^n(x_i - \overline{X})^2 D(X)=E((X−X)2)=n1i∑n(xi−X)2 - 标准差
D ( X ) \sqrt{D(X)} D(X) - 协方差
c o v ( X , Y ) = E ( ( X − X ‾ ) ( Y − Y ‾ ) ) = 1 n ∑ ( x i − X ‾ ) ( y i − Y ‾ ) cov(X,Y) = E((X-\overline{X})(Y-\overline{Y}))=\frac{1}{n}\sum{(x_i-\overline{X})(y_i-\overline{Y})} cov(X,Y)=E((X−X)(Y−Y))=n1∑(xi−X)(yi−Y) - 相关系数
ρ = c o v ( X , Y ) D ( X ) D ( Y ) = E ( ( X − X ‾ ) ( Y − Y ‾ ) ) D ( X ) D ( Y ) = E ( X − X ‾ D ( X ) Y − Y ‾ D ( Y ) ) \rho = \frac{cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}=\frac{E((X-\overline{X})(Y-\overline{Y}))}{\sqrt{D(X)}\sqrt{D(Y)}} = E(\frac{X-\overline{X}}{\sqrt{D(X)}}\frac{Y-\overline{Y}}{\sqrt{D(Y)}}) ρ=D(X)D(Y)cov(X,Y)=D(X)D(Y)E((X−X)(Y−Y))=E(D(X)X−XD(Y)Y−Y)
2.2 对样本:
- 方差
S 2 = 1 n − 1 ∑ ( x i − X ‾ ) 2 S^2 = \frac{1}{n-1}\sum{(x_i - \overline{X})^2} S2=n−11∑(xi−X)2 - 标准差
S = S 2 S = \sqrt{S^2} S=S2 - 协方差
S X Y = 1 n − 1 ∑ ( x i − X ‾ ) ( y i − Y ‾ ) S_{XY} = \frac{1}{n-1} \sum(x_i-\overline{X})(y_i-\overline{Y}) SXY=n−11∑(xi−X)(yi−Y) - 皮尔逊相关系数
r x y = S X Y S X S Y r_{xy} = \frac{S_{XY}}{S_XS_Y} rxy=SXSYSXY