数据分析师 知识体系 统计篇

统计,数据和计算机

统计是收集,处理,分析,解释数据并从数据中得出结论的科学。

统计分成两大类,描述统计推断统计。描述统计是研究数据收集,处理,描述的统计的方法。推断统计是研究如何利用样本数据推断总体特征的统计学方法(参数估计,假设检验)。

变量的分类:类别变量(有序,无序),数值变量(离散,连续)。

随机抽样方法:简单随机抽样,分层抽样,系统抽样(等距抽样),整群抽样(以群作为抽样单位)。

用图表展示数据

定性数据:
频数分布表
条形图:展示各类别绝对值
饼图:展示一个样本结构
环形图:比较多个样本结构

定量数据:
频数分布表
直方图,茎叶图,箱线图:展示分布特征
散点图:考察变量之间关系
雷达图,轮廓图:比较样本相似性

用统计量描述数据

水平:均值,中位数,四分位数,百分位数,众数
差异:极差,四分位差,方差和标准差,离散系数(标准差/均值,用于比较不同样本数据的离散程度),标准分数
形状:偏态系数SK(数据分布的不对称性),峰态系数K(数据分布峰值的高低)

对称分布的偏态系数=0,偏态系数>0,右偏,偏态系数<0,左偏。
偏态系数的绝对值大于1时,视为严重偏态分布;偏态系数的绝对值在0.5-1之间时,视为中等偏态分布。

标准正态分布的峰态系数为0,K>0,尖峰分布,K<0,扁平分布。

概率分布

离散型

伯努利分布 Bern(p):期望为p,方差为p(1-p)
二项分布 Bin(n,p):期望为np,方差为np(1-p)
泊松分布 Pois( λ \lambda λ):期望为 λ \lambda λ,方差为 λ \lambda λ
几何分布 Geom(p):期望为1/p,方差为(1-p)/p^2
负二项分布 NB(k,p):期望为k/p,方差为k(1-p)/p^2

二项分布是n个独立伯努利分布之和。
负二项分布是k个独立几何分布之和。
当二项分布n -> ∞ \infty ,p -> 0, np -> λ \lambda λ时,可视为泊松分布。

连续型

均匀分布 U(a,b):期望为(a+b)/2,方差为(b-a) 2 ^2 2/12
正态分布N( μ \mu μ, σ 2 \sigma^{2} σ2):3- σ \sigma σ法则,68.27%,95.45%,99.73%
指数分布Exp( β \beta β):期望为 β \beta β,方差为 β 2 \beta^{2} β2
伽马分布Gamma( α \alpha α, β \beta β):期望为 α β \alpha\beta αβ,方差为 α β 2 \alpha\beta^{2} αβ2
贝塔分布Beta( α \alpha α, β \beta β)

卡方分布 χ 2 ( n ) \chi^{2}(n) χ2(n):期望为n,方差为2n
t分布t(n):期望为0,方差为n/(n-2)
F分布F(n1,n2)

统计量

样本统计量的分布也称抽样分布

样本均值分布:不论原来的总体是否服从正态分布,样本均值的概率分布都将趋于正态分布。其期望为总体均值 μ \mu μ,方差为总体方差的1/n。这就是中心极限定理:样本均值依分布收敛于正态分布。

样本比例分布:当样本量很大时(np>10),样本比例分布可以用正态分布表示。设总体比例为 π \pi π,样本比例为p,则p ∼ \sim N( π , π ( 1 − π ) n \pi, \frac{\pi(1-\pi)}{n} π,nπ(1π))。

样本方差分布:若样本来自正态分布总体,则 ( n − 1 ) s 2 σ 2 \frac{(n-1)s^{2}}{\sigma^{2}} σ2(n1)s2服从 χ 2 ( n − 1 ) \chi^{2}(n-1) χ2(n1)

当样本均值或样本比例的总体标准差未知时,可以用样本标准差(标准误差)替代。

参数估计

基本原理

参数估计是用样本统计量去估计总体的参数。参数估计有点估计区间估计

点估计:用估计量的某个取值直接作为总体参数的估计值。他的缺陷是没法给出估计的可靠性,也没法说出点估计与总体参数真实值接近的程度。

区间估计:在点估计的基础上给出总体参数估计的一个估计区间,该区间通常是由样本统计量加减估计误差而得到的。

置信区间:含有置信度/置信水平的估计区间。置信水平指多次构造置信区间,区间中包含参数真值的概率。常用置信水平为0.9,0.95,0.99。

评估标准

无偏性:指估计量的期望等于被估计的总体参数。
有效性:指估计量的方差尽可能小。
一致性:指随着样本量增大,点估计量的值越来越接近被估总体的参数。

参数估计所使用的检验方法

一个总体

均值:大样本或总体方差已知用z检验,小样本且总体分布未知用t检验。
比例:大样本用z检验
方差:总体服从正态分布,用 χ 2 \chi^{2} χ2检验

两个总体

均值差:独立大样本用z检验;独立小样本若总体方差已知用z检验;若总体方差未知用t检验;配对样本用t检验。
比例差:独立大样本用z检验
方差比:两个总体都服从正态分布,用f检验。

假设检验

假设检验与参数估计类似,但角度不同。参数估计是利用样本信息推断未知的总体参数,而假设检验则是先对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立。

步骤:
(1)提出原假设和备择假设
(2)抽样,并根据统计方法计算样本统计量的值。
(3)在确定显著性水平下,计算统计量服从分布的临界值;或者直接计算p值。
(4)根据统计量与临界值的大小关系/p值与显著性水平的大小关系得出结论。

原假设是我们想要推翻的假设
备择假设是我们想要收集证据予以支持的假设。
第1类错误,原假设为真拒绝原假设所犯的错误。拒真
第2类错误,原假设为假没有拒绝原假设所犯的错误。取伪
显著性水平:犯第1类错误的概率,记为 α \alpha α
拒绝域:由显著性水平和相应临界值围成的拒绝原假设的区域
检验统计量:根据样本观测结果计算的对原假设做出决策的某个统计量
p值:犯第1类错误的真实概率。指当原假设成立时,所得到的样本结果会像实际观测结果那么极端或更极端的概率。

补充

大数定理:样本均值依概率收敛于总体均值。
极大似然估计:是点估计的一种方法。基本思想是求一个未知参数的估计值,在这个估计值下获取到已知样本的可能性是最大的。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值