概率论、统计

noobiee

已于 2022-06-08 12:59:01 修改

阅读量4.1k

点赞数 1

分类专栏：数据分析统计学+数学文章标签：概率论

于 2022-05-01 22:27:30 首次发布

本文链接：https://blog.csdn.net/m0_64768308/article/details/124531968

版权

数据分析同时被 2 个专栏收录

12 篇文章 4 订阅

订阅专栏

统计学+数学

8 篇文章 1 订阅

订阅专栏

PMF，PDF，CDF函数

中心极限定理 & 大数定律

协方差 Covariance

PMF，PDF，CDF函数

PMF针对离散变量：

PDF针对连续变量：

中心极限定理 & 大数定律

协方差 Covariance

反映两个变量同向或反向的相似程度

相关系数

离散系数coefficient of variation

离散系数是测度数据离散程度的相对统计量，主要是用于比较不同样本数据的离散程度。

当进行两个或多个资料离散程度的比较时，如果度量单位与平均数相同，可以直接利用标准差来比较。如果单位和（或）平均数不同时，比较其离散程度就不能采用标准差，而需采用标准差与平均数的比值（相对值）来比较。离散系数反映单位均值上的离散程度，常用在两个总体均值不等的离散程度的比较上。若两个总体的均值相等，则比较标准差系数与比较标准差是等价的

随机变量的分布

离散变量

Discrete Uniform Distribution 离散均匀分布

Bernoulli Distribution 伯努利分布

Binomial Distribution 二项分布

X ~ Bin(n, p)

Geometric Distribution 几何分布

直到最后一次成功一次

Negative Binomial Distribution

X ~ NB(r , p) 重复伯努利试验直到成功r次，每次成功概率为p

Poisson Distribution 泊松分布

某段连续的时间内随机事件发生的次数X的概率分布

(二项分布n很大而p很小时的一种极限形式：将时间无限划分后的二项分布)

λ的意义：一个时间段内时间平均发生的次数

泊松过程Poisson process

有界的时间区间发生随机事件数

如果泊松分布的参数为μ =λT，均值与方差均为μ。在这种形式中的λ代表单位长度时间内事件发生的期望数，μ代表长度时间T内事件发生的期望数

连续变量

Continuous Uniform Distribution 连续均匀分布

Normal Distribution 正态分布

Exponential Distribution 指数分布

两件事情发生的平均间隔时间， x为间隔时间数

指数分布的累积分布函数（CMF）为泊松分布在时间段t内随机事件发生数不为0时的情况

（即泊松过程的事件间隔的分布）

X〜Exp（λ）

Erlang & Gamma Distributions

指数分布解决的问题：“要等到一个随机事件发生，需要经历多久时间”
伽玛分布解决的问题：“要等到n个随机事件都发生，需要经历多久时间”
厄兰分布解决的问题：“要等到第n个随机事件都发生，需要经历多久时间” （整数n）
泊松分布解决的：“在特定时间里发生n个事件的概率”。

Erlang Distribution

Gamma Distribution

X∼Gamma(r,λ) r是随机事件发生数，X为间隔时间

r为形状参数（shape parameter）, λ为尺度参数（scale parameter）

其中，

gamma函数为

Chi-Squared Distribution 卡方分布

卡方分布为伽马分布的 λ = 1/2，r = ν/2 where ν = 1, 2, 3, … （v是自由度）

E(X) = n, Var(X) = 2n

Normal Approximation Method 正态拟合其他分布

with continuity correction 连续性修正

Binomial if np > 5 and n(1-p) > 5
Poisson if λ > 5

正态分布拟合二项分布：

统计学

自由度：以样本的统计量来估计总体的参数时，样本中独立或能自由变换的变量的个数。

抽样分布(sampling distributions)：统计量(statistic)的概率分布

正态变量样本：

三大抽样分布

1.卡方分布（ $\chi ^{2}$ 分布）

设随机变量 X 是自由度为 n 的 χ2 随机变量, 则其概率密度函数为：

$\chi _{n}^{2}$ 的密度函数 $g_{n}(x)$ 形状如下图：

若 X ∼ $\chi _{n}^{2}$ , 记 $P(x> c)=\alpha$ ，则 $c=\chi _{n}^{2}(\alpha )$ 称为 $\chi _{n}^{2}$ 分布的上侧 $\alpha$ 分位数, 如下图所示。当 $\alpha$ 和给定时可查表求出 $\chi _{n}^{2}(a)$ 之值，如 $\chi _{10}^{2}(0.01)=23.209$ ， $\chi _{5}^{2}(0.05)=12.592$ 等。

卡方分布性质

2. t分布

由于在实际工作中，往往σ(总体方差)是未知的，常用s（样本方差）作为σ的估计值，为了与u变换（标准正态化）区别，称为t变换，统计量t 值的分布称为t分布。

设随机变量 T ∼ $t_{n}$ , 则其密度函数为

该密度函数的图形如下

t 变量具有下列的性质:

3. F分布（Fisher费希尔分布）

若随机变量 Z ∼ $F_{m,n}$ , 则其密度函数为

自由度为 m, n 的 F 分布的密度函数如下图：

注意 F 分布的自由度 m 和 n 是有顺序的, 当 $m\neq n$ 时, 若将自由度 m 和 n 的顺序颠倒一下, 得到的是两个不同的 F 分布. 从上图
可见对给定 m = 10, n 取不同值时 $f_{m,n}(x)$ 的形状, 我们看到曲线是偏态的, n 越小偏态越严重。

若 F ∼ $F_{m,n}$ , 记 $P(F> c)=\alpha$ , 则 $c=F_{m,n}(\alpha )$ 称为 F 分布的上侧 $\alpha$ 分位数 (见上图). 当 m, n 和 $\alpha$ 给定时, 可以通过查表求出
$F_{m,n}(\alpha )$ 之值, 例如 $F_{4,10}(0.05)=3.48$ , $F_{10,15}(0.01)=3.80$ 等. 在区间估计和假设检验问题中常常用到.

F 变量具有下列的性质:

以上性质中 (1) 和 (2) 是显然的, (3) 的证明不难. 尤其性质 (3)在求区间估计和假设检验问题时会常常用到. 因为当 α 为较小的数,

如 α = 0.05 或 α = 0.01, m, n 给定时, 从已有的 F 分布表上查不到 $F_{m,n}(1-0.05)$ 和 $F_{m,n}(1-0.01)$ 之值, 但它们的值可利用性质(3) 求得, 因为 $F_{n,m}(0.05)$ 和 $F_{n,m}(0.01)$ 是可以通过查 F 分布表求得的.

三大抽样分布：卡方分布，t分布和F分布的简单理解_anshuai_aw1的博客-CSDN博客_t分布

参数估计(Estimator)

Ⅰ.点估计（point estimator）

用样本的估计量的某个取值直接作为总体参数的估计值

构造点估计常用的方法是：

矩估计法 (moments)，用样本矩估计总体矩
最大似然估计法。利用样本分布密度构造似然函数来求出参数的最大似然估计。
最小二乘法。主要用于线性统计模型中的参数估计问题。
贝叶斯估计法。

1.矩估计法 (moments)

1 .用样本的一阶原点矩来估计总体的均值μ
2 .用样本的二阶中心矩来估计总体的方差σ2

样本k阶（原点）矩

样本k阶中心矩

2.极大似然估计（maximum likelihood）

在这里插入图片描述

点估计的评价准则（无偏性unbiased,一致性,有效性minimal variance）

在这里插入图片描述

估计值的均方误差MSE

点估计的选择

A biased estimator can be preferred to an unbiased estimator if it has a smaller MSE.
UMVUE（一致最小方差无偏估计）选择无偏估计方差更小的
An estimator whose MSE is smaller than that of any other estimator is called an optimal estimator.

Ⅱ.区间估计（interval estimator）

根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量

在这里插入图片描述

置信区间 Confidence Intervals

由样本统计量所构造的总体参数的估计区间称为置信区间

样本量的确认（估计总体均值时）

这里写图片描述

置信水平 confidence level & (1-α) confidence coefficient

在这里插入图片描述

单侧置信区间 One-Sided Confidence Bounds

区间估计步骤

在这里插入图片描述

一个总体参数的区间估计

这里写图片描述

两个总体参数的区间估计

这里写图片描述

假设验证 Hypothesis Tests

假设检验是先对总体参数提出一个假设值，然后利用样本信息判断这一假设是否成立

假设检验的基本思想是小概率反证法思想，小概率思想认为小概率事件在一次试验中基本上不可能发生，在这个方法下，我们首先对总体作出一个假设，这个假设大概率会成立，如果在一次试验中，试验结果和原假设相背离，也就是小概率事件竟然发生了，那我们就有理由怀疑原假设的真实性，从而拒绝这一假设。

通过证明样本对应的p-value小于α ，以此推翻原假设，接受备择假设

提出假设Statistical Hypotheses

H0 原假设（null hypothesis）
H1 备择假设（alternative hypothesis）

两类错误

弃真错误，也叫第I类错误或α错误

原假设实际上是真的，但通过样本估计总体后，拒绝了原假设。明显这是错误的，我们拒绝了真实的原假设，所以叫弃真错误，这个错误的概率我们记为α。这个值也是显著性水平，在假设检验之前我们会规定这个概率的大小。

取伪错误，也叫第II类错误或β错误

原假设实际上假的，但通过样本估计总体后，接受了原假设。明显者是错误的，我们接受的原假设实际上是假的，所以叫取伪错误，这个错误的概率我们记为β。

犯第I类错误的概率已经被规定的显著性水平所控制，对统计者来说更容易控制，将错误影响降到最小。

显著性水平(significance level) 或α-error

显著性水平是指当原假设实际上正确时，检验统计量落在拒绝域的概率，简单理解就是犯弃真错误(Type I error)的概率。这个值是我们做假设检验之前统计者根据业务情况定好的。

The power of a statistical test 检验效能

当原假设不为真时拒绝原假设的概率，即1-β

P值 P-Value （the observed significance level）

在原假设成立的前提下，比所得到的样本观察结果更极端的结果出现的概率。拒绝原假设的最低显著水平。

如果P值很小，说明原假设情况的发生的概率很小，而如果出现了，根据小概率原理，我们就有理由拒绝原假设，P值越小，我们拒绝原假设的理由越充分。

若P>α，就没有理由怀疑H0的真实性，结论为不拒绝H0，不否定此样本是来自于该总体的结论，也即差别无显著意义。
若P≤α，则拒绝H0，接受H1，也就是这些统计量来自不同的总体，其差别不能仅由抽样误差来解释，结论为差别有显著性意义（statistically significant）。

检验方式

单侧检验

备择假设带有特定的方向性，拒绝H0总是一个强结论

双侧检验

检验统计量

在零假设情况下，这项统计量服从一个给定的概率分布，而这在另一种假设下则不然。从而若检验统计量的值落在上述分布的临界值之外，则可认为前述零假设未必正确。统计学中，用于检验假设量是否正确的量。常用的检验统计量有t统计量，Z统计量等。（n>30一般认为足够大）

假设检验步骤

提出原假设与备择假设
从所研究总体中出抽取一个随机样本
构造检验统计量：t统计量，Z统计量
根据显著性水平确定拒绝域临界值
计算检验统计量与临界值进行比较

统计检验方法

1. t检验

一般用于定量数据的检测（定类数据采用卡方检验），T检验的前提条件是假设样本服从或者近似服从正态分布

单样本均值检验（One-sample t-test

两独立样本均值检验（Independent two-sample t-test）

总体方差相等且未知：

其中，

总体方差不同且未知：

自由度为：

配对样本均值检验（总体方差相同）

适用情况：同一受试对象的两个部分接受不同的处理或前后对照处理

验证均值是否为0，其标准差

一文详解t检验 - 知乎

2. 卡方检验

检验拟合优度

依据总体分布状况，计算出分类变量中各类别的期望频数，与分布的观察频数进行对比，判断期望频数与观察频数是否有显著差异，从而达到从分类变量进行分析的目的

在这里插入图片描述检验统计量

案例：统计学——卡方检验和卡方分布_snowdroptulip的博客-CSDN博客_卡方检验公式

检验变量之间的相关性

3. F检验

方差齐性检验

（单因素）ANOVA方差分析

其中 SSA是各个水平之间的偏差平方和，也可以说成是组间平方和（Sum of Square Between Groups），SSE是各个水平内部的偏差平方和，可以说成是组内偏差平方和，可以理解为上面说的误差的平方和（Sum of Square Error）

线性回归显著性检验

一文详解F检验 - 知乎

一文看懂统计学T检验、F检验、卡方检验 - 知乎

统计模型

简单线性回归模型（SLR）

线性回归：请注意，它是针对回归系数要求线性

也就是三个基本假设

线性回归参数估计

Ⅰ. 最小二乘法 ordinary least squares （OLS）

残差和误差：

调整β最小化RSS

得出：

最小二乘估计量（Least Squares Estimators）

所以 yi 也可以被写作：，其中ri是残差

残余方差 residual variance (σ²的无偏估计)

残差标准差

高斯马尔科夫定理（Gauss-Markov Theorem）

证明了如果误差满足零均值、同方差且互不相关，那么利用最小二乘法（OLS）进行线性回归得到的估计参数是最佳的以及无偏的。所以普通最小二乘法估计是对回归系数的最佳线性无偏估计 (BLUE, Best Linear Unbiased Estimator)

Ⅱ. 极大似然估计 Maximum likelihood

y服从正态分布（因为y是误差项ε的线性组合）：

似然函数

其中，

最大化似然函数，需要求导为0，得出：

图片解释：

其中，

MLE的σ²为有偏估计

线性回归参数的抽样分布&假设估计

Ⅰ. 斜率slope β1

根据，求标准差

所以：

σ未知情况下，t分布（回归系数的区间估计）

回归系数的显著性检验：

t检验 f检验

其中

如果用相关系数则

Ⅱ. 偏置 β0

根据，求其标准差

β0和β1的协方差

Ⅲ. 期望平均值μ （全局）For 置信区间CI

得到其标准差

这里x尖为x的方差

95%置信区间为：

Ⅳ. 预测期望y值（For prediction interval (PI)预测区间）

其标准差为

即x处的方差和y平均值方差之和

95%预测区间为（假设误差正态性）：

置信区间估计(confidence interval estimate)：利用估计的回归方程，对于自变量 x 的一个给定值 x0 ，求出因变量 y 的平均值的估计区间。
预测区间估计(prediction interval estimate)：利用估计的回归方程，对于自变量 x 的一个给定值 x0 ，求出因变量 y 的一个个别值的估计区间。

判断数据是否适合线性回归模型

Ⅰ. 残差分析（Residual analysis）

Quantile plots
Scatterplots
Histograms直方图, stem and leaf diagrams and boxplots

Methods for standardizing residuals

Standardized residuals 标准化残差 也称Pearson残差或半学生化残差（semi-studentized residuals）

$z_{e_{i}}=\frac{e_{i}}{s_{e}}=\frac{y_{i}-\hat{y}_{i}}{s_{e}}$ ( $s_{e}$ 是残差的标准差的估计) 残差除以其标准差后得到的数值。

如果误差项 $\varepsilon$ 服从正态分布的这一假定成立，则标准化残差的分布也服从正态分布。大约有95%的标准化残差在 -2~2 之间。

Studentized residuals 学生化残差
Jackknife residuals

Ⅱ.检验线性(Linearity)、同方差性(Homoscedasticity)、正态性(Normality)

Y-X散点图
残差散点图（Residual Scatterplot）

残差直方图Residual Histogram
Normal Probability Plot （Quantile-quantile plots 分位数-分位数图, QQ图）

residuals vs the expected standard deviation from a Normal Distribution

理论值为分位数（将观察值视为等分的实际分布）

分位数（Quantile），亦称分位点，是指将一个随机变量的概率分布范围分为几个等份的数值点。分位数指的就是连续分布函数中的一个点，这个点对应概率p。若概率0<p<1，随机变量X或它的概率分布的分位数Za，是指满足条件p(X≤Za)=α的实数。

常用的有中位数（即二分位数）、四分位数、百分位数等

分位数-分位数图（quantile-quantile plot）或q-q图对着另⼀个对应的分位数，绘制⼀个单变量分布的分位数。它是⼀种强有⼒的可视化
⼯具，使得⽤户可以观察从⼀个分布到另⼀个分布是否有漂移

详细：【统计学笔记】正态概率图与Q-Q图_逸笔1B的博客-CSDN博客_正态概率图

图解：正态 QQ 图和普通 QQ 图—ArcMap | 文档

Ⅲ.非线性匹配后如何拟合 Remedial Measures

更换非线性模型
Transformations on X：当误差分布近似正态分布
Transformations on Y：当误差分布是非正态性并且方差各不同
Box Cox Transforms

回归分析Regression Analysis

1. 基本方程

total variation = regression sum of squares + error sum of squares

证明：证明总偏差平方和 = 回归平方和 + 残差平方和_心态与做事习惯决定人生高度的博客-CSDN博客_总偏差平方和

各自方差

SSTO：n-1自由度包含平均值

SSE：n-2自由度 β0 and β1

SSR：1 自由度只有斜率

2. 回归评价指标 \ 拟合优度

均方误差：MSE（Mean Squared Error）
均方根误差：RMSE（Root Mean Squard Error）
平均绝对误差：MAE（Mean Absolute Error）
决定系数：R²（R-Square）

SSTO=SST

一般来说，R-Squared 越大，表示模型拟合效果越好。R-Squared 反映的是大概有多准，因为，随着样本数量的增加，R-Squared 必然增加，无法真正定量说明准确程度，只能大概定量。

单独看 R-Squared，并不能推断出增加的特征是否有意义。通常来说，增加一个特征特征，R-Squared 可能变大也可能保持不变，两者不一定呈正相关。

校正决定系数（Adjusted R-Squared）

在这里插入图片描述

其中，n 是样本数量，p 是特征数量。Adjusted R-Squared 抵消样本数量对 R-Squared 的影响，做到了真正的 0~1，越大越好。调整R方剔除了自变量个数的影响，其值总是小于R方。

增加一个特征变量，如果这个特征有意义，Adjusted R-Square 就会增大，若这个特征是冗余特征，Adjusted R-Squared 就会减小。

多元线性回归分析MLR

三条基本假定：

基本形式：

在这里插入图片描述

在正态假定下，如果X是列满秩的，则普通线性回归模型的参数最小二乘估计为：

于是y的估计值为：
在这里插入图片描述

单个系数显著检验的t-检验量：

σβ是对应标准差，样本数量为p，则自由度1为n-(p+1)

由得到具体t检验量

其中cjj 是的对角线元素

方程显著性检验：

Estimate & Inference of β in MLR

Estimate: • Fisher-scoring Method • Newton-Raphson Method • Iteratively Re-weighted Least Squares (IRLS)

Inference: • Wald Tests • score • likelihood ratio

Wald test

Wald回归系数的检验要求：n足够大，每个β近似正态分布

原假设则z统计量为

实际中，计算β的置信区间

其中z*是标准z分数

ANOVA-方差分析 The analysis of variance

1. 方差分析表 ANOVA Table (回归分析)

多元回归分析， p为自变量x个数， df 自由度

期望值：

2. F检验简单线性回归（回归系数的显著性检验）

H0 : β1 = 0

原假设成立时 F趋于1，不成立时 F大于1

MSR/MSE的意义：笔者认为其参考的是观察点是否可被线性拟合的能力

推导：

科克伦定理 Cochran’s theorem

根据科克伦定理：

所以

对于t检验同样的假设验证：

3. 方差分析

方差分析假定

【统计学笔记】方差分析表和回归分析表的解读_MYMarcoreus的博客-CSDN博客_方差分析表

方差分析确定三个或更多组的均值是否不同。 ANOVA使用F-test来检验均值是否相等。

差异研究的目的在于比较两组数据或多组数据之间的差异，通常包括以下几类分析方法，分别是方差分析、T检验和卡方检验。

误差分解+方差分析

单因子：

效应量分析：

它反映了在因变量取值的总误差中被因子解释的比例，效应量越大说明自变量与因变量之间的关系就越强

多因子：

效应量Effect size

衡量自变量和因变量之间关联强度的指标，它是原假设H0错误的程度且几乎不受样本量大小的影响。换句话理解：当效应量过小时，自变量就是不重要的

效应量类型	效应量名称	适用数据形式
Correlation family	Pearson r	Correlational data
	R² (r-squared)	Correlational data
	η² (Eta-squared)	Correlational data
	ω² (Omega-squared)	Correlational data
Difference family	Cohen's d	Continuous data
	Hedges' g	Continuous data
Categorical family	Cohen's w	Binary data
	Odds ratio (OR)	Binary data
	Relative risk (RR)	Binary data