数据分析师知识体系统计篇

最新推荐文章于 2022-08-11 00:38:48 发布

andylklk

最新推荐文章于 2022-08-11 00:38:48 发布

阅读量748

点赞数

文章标签：数据分析统计学

本文链接：https://blog.csdn.net/andylklk/article/details/108303495

版权

统计，数据和计算机

统计是收集，处理，分析，解释数据并从数据中得出结论的科学。

统计分成两大类，描述统计和推断统计。描述统计是研究数据收集，处理，描述的统计的方法。推断统计是研究如何利用样本数据推断总体特征的统计学方法(参数估计，假设检验)。

变量的分类：类别变量(有序，无序)，数值变量(离散，连续)。

随机抽样方法:简单随机抽样，分层抽样，系统抽样(等距抽样),整群抽样(以群作为抽样单位)。

用图表展示数据

定性数据：
频数分布表
条形图：展示各类别绝对值
饼图：展示一个样本结构
环形图：比较多个样本结构

定量数据：
频数分布表
直方图，茎叶图，箱线图：展示分布特征
散点图：考察变量之间关系
雷达图，轮廓图：比较样本相似性

用统计量描述数据

水平：均值，中位数，四分位数，百分位数，众数
差异：极差，四分位差，方差和标准差，离散系数(标准差/均值，用于比较不同样本数据的离散程度)，标准分数
形状：偏态系数SK(数据分布的不对称性)，峰态系数K(数据分布峰值的高低)

对称分布的偏态系数=0，偏态系数>0，右偏，偏态系数<0，左偏。
偏态系数的绝对值大于1时，视为严重偏态分布；偏态系数的绝对值在0.5-1之间时，视为中等偏态分布。

标准正态分布的峰态系数为0，K>0，尖峰分布，K<0,扁平分布。

概率分布

离散型

伯努利分布 Bern（p）：期望为p，方差为p(1-p)
二项分布 Bin（n，p）：期望为np，方差为np(1-p)
泊松分布 Pois（ $\lambda$ ）：期望为 $\lambda$ ,方差为 $\lambda$
几何分布 Geom（p）：期望为1/p，方差为(1-p)/p^2
负二项分布 NB(k，p）：期望为k/p，方差为k(1-p)/p^2

二项分布是n个独立伯努利分布之和。
负二项分布是k个独立几何分布之和。
当二项分布n -> $\infty$ ,p -> 0, np -> $\lambda$ 时，可视为泊松分布。

连续型

均匀分布 U(a,b)：期望为（a+b）/2，方差为（b-a) $^2$ /12
正态分布N( $\mu$ , $\sigma^{2}$ )：3- $\sigma$ 法则，68.27%，95.45%，99.73%
指数分布Exp( $\beta$ )：期望为 $\beta$ ，方差为 $\beta^{2}$
伽马分布Gamma( $\alpha$ , $\beta$ )：期望为 $\alpha\beta$ ，方差为 $\alpha\beta^{2}$
贝塔分布Beta( $\alpha$ , $\beta$ )

卡方分布 $\chi^{2}(n)$ ：期望为n，方差为2n
t分布t(n)：期望为0，方差为n/(n-2)
F分布F(n1,n2)

统计量

样本统计量的分布也称抽样分布。

样本均值分布：不论原来的总体是否服从正态分布，样本均值的概率分布都将趋于正态分布。其期望为总体均值 $\mu$ ,方差为总体方差的1/n。这就是中心极限定理：样本均值依分布收敛于正态分布。

样本比例分布：当样本量很大时(np>10)，样本比例分布可以用正态分布表示。设总体比例为 $\pi$ ，样本比例为p，则p $\sim$ N( $\pi, \frac{\pi(1-\pi)}{n}$ )。

样本方差分布：若样本来自正态分布总体，则 $\frac{(n-1)s^{2}}{\sigma^{2}}$ 服从 $\chi^{2}(n-1)$ 。

当样本均值或样本比例的总体标准差未知时，可以用样本标准差(标准误差)替代。

参数估计

基本原理

参数估计是用样本统计量去估计总体的参数。参数估计有点估计和区间估计。

点估计：用估计量的某个取值直接作为总体参数的估计值。他的缺陷是没法给出估计的可靠性，也没法说出点估计与总体参数真实值接近的程度。

区间估计：在点估计的基础上给出总体参数估计的一个估计区间，该区间通常是由样本统计量加减估计误差而得到的。

置信区间：含有置信度/置信水平的估计区间。置信水平指多次构造置信区间，区间中包含参数真值的概率。常用置信水平为0.9，0.95，0.99。

评估标准

无偏性：指估计量的期望等于被估计的总体参数。
有效性：指估计量的方差尽可能小。
一致性：指随着样本量增大，点估计量的值越来越接近被估总体的参数。

参数估计所使用的检验方法

一个总体

均值：大样本或总体方差已知用z检验，小样本且总体分布未知用t检验。
比例：大样本用z检验
方差：总体服从正态分布，用 $\chi^{2}$ 检验

两个总体

均值差：独立大样本用z检验；独立小样本若总体方差已知用z检验；若总体方差未知用t检验；配对样本用t检验。
比例差：独立大样本用z检验
方差比：两个总体都服从正态分布，用f检验。

假设检验

假设检验与参数估计类似，但角度不同。参数估计是利用样本信息推断未知的总体参数，而假设检验则是先对总体参数提出一个假设值，然后利用样本信息判断这一假设是否成立。

步骤：
(1)提出原假设和备择假设
(2)抽样，并根据统计方法计算样本统计量的值。
(3)在确定显著性水平下，计算统计量服从分布的临界值；或者直接计算p值。
(4)根据统计量与临界值的大小关系/p值与显著性水平的大小关系得出结论。

原假设是我们想要推翻的假设
备择假设是我们想要收集证据予以支持的假设。
第1类错误，原假设为真拒绝原假设所犯的错误。拒真
第2类错误，原假设为假没有拒绝原假设所犯的错误。取伪
显著性水平：犯第1类错误的概率，记为 $\alpha$
拒绝域：由显著性水平和相应临界值围成的拒绝原假设的区域
检验统计量：根据样本观测结果计算的对原假设做出决策的某个统计量
p值：犯第1类错误的真实概率。指当原假设成立时，所得到的样本结果会像实际观测结果那么极端或更极端的概率。

补充

大数定理：样本均值依概率收敛于总体均值。
极大似然估计：是点估计的一种方法。基本思想是求一个未知参数的估计值，在这个估计值下获取到已知样本的可能性是最大的。

andylklk

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据分析师知识体系统计篇

目录统计，数据和计算机用图表展示数据用统计量描述数据概率分布离散型连续型统计量参数估计基本原理评估标准参数估计所使用的检验方法一个总体两个总体假设检验补充统计，数据和计算机统计是收集，处理，分析，解释数据并从数据中得出结论的科学。统计分成两大类，描述统计和推断统计。描述统计是研究数据收集，处理，描述的统计的方法。推断统计是研究如何利用样本数据推断总体特征的统计学方法(参数估计，假设检验)。变量的分类：类别变量(有序，无序)，数值变量(离散，连续)。随机抽样方法:简单随机抽样，分层抽样，系统抽样(等
复制链接

扫一扫