《统计学》读书笔记，第3-7章节

最新推荐文章于 2021-01-29 15:55:54 发布

阿清陪你聊聊数据分析

最新推荐文章于 2021-01-29 15:55:54 发布

阅读量3k

点赞数 1

分类专栏：我的学习之路文章标签：数据分析统计学数学读书笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dongyi91/article/details/22750509

版权

我的学习之路专栏收录该内容

69 篇文章 1 订阅

订阅专栏

第3章用统计量描述数据

3.1 数据水平

数据的水平是指其取值的大小，描述的统计量主要有：平均数、中位数、分位数以及众数。

3.2 数据离散程度

数据的差异性、离散程度，描述的统计量主要由：极差、四分位差、方差、标准差以及测度相对离散程度的离散系数（标准差与平均数之比，消除数据水平高低对标准差大小的影响）。

3.3 数据分布形状

数据的分布形状，通过直方图和茎叶图可以知道数据的分布是否对称。对于不对称的分布，偏态系数是对分布对称程度的度量，峰态系数是对峰值高低的度量（峰尖或不尖）。

3.3.1 偏态系数

偏态系数：SK= n/[(n-1)(n-2)] × Σ[(x-μ)/s]³。

如果一组数据的分布式对称的，则偏态系数为0；若偏态系数大于1或者小于-1，视为严重偏态分布，否则为中等偏态分布。其中负值是左偏（也叫负偏态分布，在分布左侧有长尾），正值表示右偏（也叫正偏态分布，在分布右侧有长尾）。

3.3.2 峰态系数

峰态系数：K= n(n+1)/[(n-1)(n-2)(n-3)] ×Σ[(x-μ)/s]⁴ — [3(n-1)²]/[(n-2)(n-3)]。

标准正态分布的峰态系数为0，当K > 0为尖峰分布，数据分布相对集中，否则为扁平分布。

第4章概率分布

4.1 正态分布

4.1.1 正态分布的性质

4.1.2 正态性评估

确定数据是否来自正态分布的总体。判断方法主要由：

1）P—P图

根据观测数据的累计概率与理论分布的雷击概率的符合程度绘制。

2）Q—Q图

根据观测值的实际分位数与理论分布的分位数绘制。

3）非参数检验中的Kolmogorov-Smirnov检验

见第14章。

4.2 t分布

t分布式类似正态分布的一种对称分布，它通常要比正态分布平坦和分散。随着自由度的增大，t分布逐渐趋于正态分布。

t = X / sqrt(Y / n)，其中X~N(0,1)，Y~χ²(n)，且X与Y相互独立，称t服从自由度为n的t分布，记作t~t(n)。

当正态总体标准差未知时，在小样本条件下对总体均值的估计和检验要用到t分布。

4.3 χ²分布

χ²=Σ_i=1…n X_i²，其中X_i~N(0,1)，称χ²~χ²(n)分布，n为自由度。

E(χ²) = n，D(χ²)= 2n。

χ²分布的形状，通常为不对称的右偏分布，但随着自由度的增大逐渐趋于对称。χ²分布具有可加性（自由度之和）。

4.4 F分布

F分布通常用于比较不同总体的方差是否有显著差异。

F = (X/n₁) / (Y/n₂)，其中X~χ²(n₁)，Y~χ²(n₂)，且X与Y相互独立，称F服从自由度为(n₁,n₂)的F分布，记作F~F(n₁,n₂)。

4.5 中心极限定理

不论原来的总体是否服从正态分布，随着样本量的增加，样本均值的概率分布都将趋于正态分布。

样本方差服从χ²(n-1)分布。两个总体对应的样本方差之比服从F分布。

4.6 标准误

统计量的标准误差也称为标准误。

当总体标准差未知时，可以用标准误代替，这时的标准误称为估计标准误差，由于现实中总体的标准差总是未知的，因此，估计标准误差简称为标准误差。

标准误是根据原始观测值计算的，反映一组原始数据的离散程度。而标准误差是根据样本统计量计算的，反映的是统计量的离散程度。

第5章参数估计

5.1 点估计

由样本X₁,X₂, …, X_n计算出的统计量θ’(X₁,X₂, …, X_n)为统计量θ的估计量。

估计方法有矩估计和最大似然估计法。

5.2 区间估计与置信区间

区间估计就是用以统计量为端点的随机区间来刻画总体未知参数所在的范围。

对给定值α（０＜α＜１），若由来自总体X的样本X₁,X₂, …, X_n确定的两个统计量θ₁’和θ₂’（θ₁’＜＝θ₂’），对于任意θ∈Θ满足：P{θ₁’＜θ＜θ₂’}≥ 1－α，则称随机区间（θ₁’，θ₂’）是θ的置信水平（置信度）为1－α的置信区间。

5.3 评价估计量的标准

①无偏性

指估计量抽样分布的期望值等于被估计的总体参数。

若估计量θ’=θ’(X₁,X₂, …, X_n)的数学期望E(θ’)存在，且对任意θ∈Θ有E(θ’)=θ，则称θ’是未知参数θ的无偏估计量。

②有效性

指估计量的方差尽可能小。样本估计量与总体参数的接近程度是用估计量的方差来度量的。

设θ₁’和θ₂’都是未知参数θ的无偏估计量，若有D(θ₁’)<= D(θ₂’)，且等号不是一直成立，则称θ₁’较θ₂’有效。

③一致性

指随着样本量的增大，点估计量的值越来越接近被估计的总体参数。

设θ’为未知参数θ的估计量，若对于任意θ∈Θ，当n→∞时，θ’依概率收敛于θ，则称θ’为θ的一致估计量。

5.4 一个总体的参数的区间估计

均值（正态分布）、比例（正态分布）、方差（卡方分布），一些公式。

5.5 两个总体的参数的区间估计

均值之差（正态分布）、比例之差（正态分布）、方差之比（F分布），一些公式。

5.6 样本量的确定

上述公式的反应用。

第6章假设检验

6.1 假设检验的基本原理

假设检验问题：在总体分布函数完全未知或者只知道其形式不知道参数的情况下，提出某些关于总体分布函数的假设，然后抽取样本，构造合适的统计量，再作出接受或拒绝的决策，这样的问题称为假设检验问题。

原假设一般记为H₀，与之相对立的称为备择假设或者对立假设，记为H₁。、

假设检验的两类错误：H₀实际为真时，拒绝了H₀，称为第Ⅰ类错误。H₀实际为假时，接受了H₀，称为第Ⅱ类错误。

α是一个小的正数，在作检验时要求犯第Ⅰ类错误的概率≤α，α称为检验的显著水平。

对于给定的样本容量，只控制犯第Ⅰ类错误的概率，而不考虑犯第Ⅱ类错误的概率，这样的检验方法称为显著性检验。

6.2 一个总体参数的检验

均值（正态分布）、比例（正态分布）、方差（卡方分布）。

根据计算的检验统计量，对比检验表可知拒绝还是接受假设。

6.3 两个总体参数的检验

均值之差（正态分布）、比例之差（正态分布）、方差之比（F分布）

根据计算的检验统计量，对比检验表可知拒绝还是接受假设。

第7章分类变量的推断

分类变量的取值是各个类别，对这些类别通常是对其频数进行观察和分析。分类变量的推断就是根据各类别的频数利用χ²分布进行分析，因此也称为χ²检验。

7.1 一个分类变量的拟合优度检验

χ²拟合优度检验：利用χ²统计量来判断某个分类变量各类别的观察频数分布与某一理论频数或期望分布是否一致。

检验统计量为：Pearsonχ²，计算公式为：χ²= Σ(f₀ - f_e)²/ f_e。其中f₀为观察频数，f_e为期望频数，服从自由度为k-1的χ²分布，k为类别数。

7.2 两个分类变量的独立性检验

χ²独立检验：对列联表中的两个分类变量进行分析，判断两个变量是否独立。

检验统计量为：χ²= Σ Σ(f₀ - f_e)²/ f_e。该统计量服从自由度为(r-1)(c-1)的χ²分布，r为列联表行数，c为列数。

应用χ²检验时，要求样本量足够大。

7.3两个分类变量的相关性检验

如果χ²独立性检验拒绝了独立假设，则表明两个变量不独立，可以进一步测度它们之间的关联程度，主要使用的统计量有：φ系数、Cramer’s V系数、列联系数。

7.3.1 φ系数

主要用于2×2列联表的相关性测量。计算公式为：φ = sqrt(χ²/n)，其中χ²= Σ Σ(f₀ - f_e)²/ f_e，n为样本总量。φ越接近于1，相关性越强。

7.3.2 Cramer’s V系数

V = sqrt(χ² / n×min(r-1, c-1) )，χ²= Σ Σ(f₀ - f_e)²/ f_e，当r和c有一个为2，就等于φ系数。

7.3.3 列联系数

主要运用于大于2×2列联表的相关性测量，用C表示。

C = sqrt(χ² / χ² + n)。

阿清陪你聊聊数据分析

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

阿清陪你聊聊数据分析 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。