一、基本概念
在数理统计中,称研究对象的全体为总体,通常用一个随机变量表示总体。组成总体的每个基本单元叫个体
抽样:每次抽取必须是随机的、独立的,才能更好地反映总体情况
简单随机抽样:每个个体被抽到的机会是均等的,x1、x2、x3···xi互相独立,且xi与总体X同分布
样本作为随机变量,有一定的概率分布,称为样本分布,取决于总体的性质和样本的性质。
注意:样本具有两重性,即当在一次具体地抽样后它是一组确定的数值。但在一般叙述中样本也是一组随机变量,因为抽样是随机的。
抽样分布:统计量的分布
二、常用的统计量
样本均值、样本方差、k阶样本原点矩(当K=1的时候等于样本均值)、k阶样本中心矩(当样本量足够大时,1/n与1/(n-1)相等,通常用样本的k阶中心矩估计总体分布的k阶中心矩)、顺序统计量(按从小到大的顺序排列,最小顺序统计量、最大顺序统计量、第r个顺序统计量)
三、描述性统计
3.1 数据集中趋势的度量
平均数(受极值影响)、中位数(缺乏敏感性)、众数(数据有明显集中趋势时代表性较好)、百分位数
import numpy as np
np.mean()#均值
np.median()#中位数
#利用numpy计数求众数,适用于非负数据集,nums为数据列表
counts = np.bincount(nums)
np.argmax(counts)
#利用scipy下的stats,nums为数据列表
from scipy import stats
stats.