数理统计基础
数理统计,以概率论为基础,研究大量随机现象的统计规律性。数理统计分为如下两类:
描述统计
推断统计
数理统计在数据分析领域具有非常重要的地位
统计分析概述
案例
假设校领导关注于公司人员业绩,我们会怎样进行汇报?
A 某人业绩还可以。
B 张三业绩80万,李四业绩100万……
C 第一部门1000万,第一部门1000万,第一部门1000万……
D 平均100万,最低10万,最高1500万....
描述性统计,就是从总体数据中提取变量的主要信息(总和,均值等),从而从总体层面上,对数据进行统计性描述。在统计的过程中,通常会配合绘制相关的统计图来进行辅助。
描述性统计所提取统计的信息,我们称为统计量,主要包括以下几个方面:
频数与频率
频数(又称“次数”。指变量值中代表某种特征的数(标志值)出现的次数。)
频率(频率是单位时间内完成周期性变化的次数,是描述周期运动频繁程度的量,常用符号f或ν表示,单位为秒分之一,符号为s-1。为了纪念德国物理学家赫兹的贡献,人们把频率的单位命名为赫兹,简称“赫”,符号为Hz。每个物体都有由它本身性质决定的与振幅无关的频率,叫做固有频率。)
集中趋势分析
均值(平均数,统计学术语,是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数。它是反映数据集中趋势的一项指标。解答平均数应用题的关键在于确定“总数量”以及和总数量对应的总份数。)
中位数(中位数(Median)又称中值,统计学中的专有名词,是按顺序排列的一组数据中居于中间位置的数,代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。)
众数(众数(Mode)是指在统计分布上具有明显集中趋势点的数值,代表数据的一般水平。 也是一组数据中出现次数最多的数值,有时众数在一组数中有好几个。用M表示。)
分位数(分位数(Quantile),亦称分位点,是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数、百分位数等)
离散程度分析
极差(极差又称范围误差或全距(Range),以R表示,是用来表示统计资料中的变异量数(measures of variation),其最大值与最小值之间的差距,即最大值减最小值后所得之数据。)
方差(方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。)
标准差(标准差(Standard Deviation) ,中文环境中又常称均方差,是离均差平方的算术平均数的平方根,用σ表示。在概率统计中最常使用作为统计分布程度上的测量。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。)
分布形状
偏度(偏度(skewness)也称为偏态、偏态系数,是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。 )
峰度(峰度(peakedness;kurtosis)又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言统计量,如果峰度大于三,峰的形状比较尖,比正态分布峰要陡峭。反之亦然。)
变量的类型
类别变量
无序类别变量
有序类别变量
数值变量
连续变量
离散变量
统计量
频数与频率
数据的频数与频率统计适用于类别变量。
频数
频数,指数据中类别变量每个不同取值出现的次数。
频率,指每个类别变量的频数与总次数的比值,通常采用百分数表示。
集中趋势
均值
均值,即平均值,其为一组数据的总和除以数据的个数。
中位数
将一组数据升序排列,位于该组数据最中间位置的值,就是中位数。如果数据个数为偶数,则取中间两个数值的均值。
众数
一组数据中出现次数对多的值。
关于三者,说明如下
数值变量通常使用均值与中值表示集中趋势。
类别变量通常使用众数表示集中趋势。
在正态分布下,三者是相同的。在偏态分布下,三者会所有不同。
均值使用所有的数据进行计算,因此容易受到极端值的影响。
中位数与众数不受极端值的影响,因此会相对稳定。
众数在一组数据中可能不是唯一的。
分位数
分位数,通过n - 1个分位将数据划分为n个区间,使得每个区间的数值个数相等(或近似相等)。其中,n为分位数的数量。常用的分位数有四分位数与百分位数。
以四分位数为例,通过3个分位,将数据划分为4个区间(百分位数可根据四分位数对比理解)
第1个分位称为1 / 4分位(下四分位)。数据中1 / 4的数据小于该分位值。
第2个分位称为2 / 4分位(中四分位)。数据中2 / 4的数据小于该分位值。
第3个分位称为3 / 4分位(上四分位)。数据中3 / 4的数据小于该分位值。
离散程度
极差
极差指一组数据中,最大值与最小值之差。
方差
方差体现的是一组数据中,每个元素与均值偏离的大小
𝜎2=1𝑛−1∑𝑛𝑖=1(𝑥𝑖−𝑥¯)2
标准差
标准差为方差的开方。
𝜎=1𝑛−1∑𝑛𝑖=1(𝑥𝑖−𝑥¯)
关于三者,说明如下
极差的计算非常简单,但是极差没有充分的利用数据信息。
方差(标准差)可以体现数据的分散性,方差(标准差)越大,数据越分散,方差(标准差)越小,数据越集中。
方差(标准差)也可以体现数据的波动性(稳定性)。方差(标准差)越大,数据波动性越大,方差(标准差)越小,数据波动性越小。
当数据较大时,也可以使用n代替n - 1。
分布形状
偏度
偏度是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。
如果数据对称分布(例如正态分布),则偏度为0。
如果数据左偏分布,则偏度小于0。
如果数据右偏分布,则偏度大于0。
峰度
峰度是描述总体中所有取值分布形态陡缓程度的统计量。可以将峰度理解为数据分布的高矮程度。峰度的比较是相对于标准正态分布的。
对于标准正态分布,峰度为0。
如果峰度大于0,说明数据在分布上比标准正态分布密集,方差(标准差)较小。
如果峰度小于0,说明数据在分布上比标准正态分布分散,方差(标准差)较大。
https://seaborn.pydata.org/