数据的统计描述和分析
统计的基本概念
统计量
-
表示位置的统计量—平均值和中位数:
平均值(或均值,数学期望):X = 1/n ∑Xi
中位数:将数据由小到大排序后位于中间位置的那个数值。 -
表示变异程度的统计量—标准差、方差和极差:
标准差:s = [ 1/ (n-1) ∑ ( Xi - X )2 ]1/2
它是各个数据与均值偏离程度的度量。
方差:标准差的平方。
极差:样本中最大值与最小值之差。 -
表示分布形状的统计量—偏度和峰度:
偏度:g1 = (1/ s3 )∑( Xi - X )3
峰度:g2 = (1/ s4 )∑( Xi - X )4
偏度反映分布的对称性,g1 >0称为右偏态,此时数据位于均值右边的比位于左边的多;g1 <0称为左偏态,情况相反;而 g1 接近0则可认为分布是对称的。
峰度是分布形状的另一种度量,正态分布的峰度为3,若 g2 比 3 大很多,表示分布有沉重的尾巴,说明样本中含有较多远离均值的数据,因而峰度可用作衡量偏离正态分布的尺度之一。
分布函数的近似求法
-
整理资料: 把样本值x1,x2,…,xn进行分组,先将它们依大小次序排列,得x1*<x2*<…<xn*,在包含 [x1*, xn*] 的区间 [a,b] 内插入一些等分点:注意要使每一个区间 (i=1,2,…,n-1)内都有样本观测值xi(i=1,2,…,n-1)落入其中。
-
求出各组的频数和频率:统计出样本观测值在每个区间 [xi*, xi+1*] 中出现的次数 ,它就是这区间或这组的频数。计算频率 fi = ni/n。
-
作频率直方图:在直角坐标系的横轴上,标出 x1,x2,…,xn 各点,分别以 [xi*, xi+1*] 为底边,作高为 fi/dxi* 的矩形, 即得频率直方图。
几个在统计中常用的概率分布
- 正态分布 N ( μ , σ2 )
密度函数: