1、数据种类
定量-定类数据、定序数据
定型-定距数据、定比数据
2、统计学两大方向
描述统计学
推断统计学
3、描述统计学
集中趋势-平均数、中位数、众数
离散趋势-分位数、方差、标准差、变异系数
分布形状-偏度、峰度
4、python和excel计算各指标
前提:import numpys as np
data=[2,23,4,17,12,12,13,6]
4.1、算术平均数
excel:mean()
python: np.mean(data)
4.2、几何平均数
excel:geomean()
python: np.gmean(data)
4.3、调和平均数
excel:harmean()
python: np.hmean(data)
一般来讲:算术平均数大于聚合平均数大于调和平均值
数值类均值-算数
比例类均值-几何
平均速度等-调和
4.4、中位数
excel:median()
python: np.median(data)
4.5、众数
excel:mode()
python: np.mode(data)
-------------------------------------------------以上是描述集中趋势
4.6、分位数
excel:quartile(a1:a8,1)
括号里:0代表最小值,1代表25%分位数,2、3代表50、75,4代表最大值
python: from scipy import stats as sts
sts.scoreaypercentile(data,25)
四分位画图-箱线图
import seaborn as sns
sns.boxplot(data=data)
4.7、极差
excel:max()-min()
python: np.ptp(data)
4.8、四分位距
两者均是相减得到答案
4.9、方差
excel:VAR()
python: sts.tvar(data,ddof=1)
ddof:该参数位1时,分母位n-1,即样本方差
为0时。分母为n,总体方差
4.10、标准差
excel:stdev()
python: sts.tstd(data,ddof=1)
ddof:该参数位1时,分母位n-1,即样本方差
为0时。分母为n,总体方差
4.11、变异系数
标准差比平均数,对不同变量或不同数组的离散程度进行比较是,如他们的平均水平和计量单位都相同,则可以使用上述指标去评价他们的离散程度,否则用变异系数去比较他们的离散程度
又称离散系数。
-------------------------------------------以上是描述离散程度,以下是描述形状
4.12、偏度
excel:skew()
python: np.skew(data,bias=False)
bias参数为False,代表计算总体偏度,True为样本偏度
这里样本总体指的是计算时候使用的标准差是样本标准差还是总体标准差
4.13、峰度
excel:kurt()
python: np.kurtosis(data,bias=False)