气象统计方法期末知识点小结

RedGhost117

已于 2023-02-13 15:41:51 修改

阅读量9.5k

点赞数 30

文章标签：学习

于 2022-11-23 13:55:55 首次发布

本文链接：https://blog.csdn.net/m0_60394632/article/details/127871784

版权

气象统计方法知识点小结

小知识点

气象统计诊断的基本步骤

资料收集
资料预处理
选取诊断方法
科学综合与诊断分析

气象统计预测的基本步骤

资料收集
选择合适的统计模型
统计检验
预测结论

一些概念

气象统计分析：利用统计学方法对样本进行分析来估计和推测总体的规律性
时间尺度：
时间序列：某气象要素随时间变化的数据序列（n维空间的一个点）
空间场：同一时间某气象要素在不同站点的观测记录（一维空间中的n个点）
统计量：从总体中抽取容量为n的一个样本，如果由此样本构造一个函数，不依赖任何未知参数，则称此函数为一个统计量
累计频率：变量小于某上限值的次数与总次数之比.表征有限样本的统计特征
无限总体中的“累积频率”称为分布函数或分布函量
中心极限定理：即当样本量很大时（不论这个样本本身满足何种分布，甚至观测数据取自不同的分布），一组独立试验的和或者算术平均满足正态分布

一. 变化幅度统计量

1. 距平

描述气候变量偏离正常值的偏差
$x_{di} = x_i - \bar{x}$

一组数据中的某个数和均值的差就是距平
由距平值组成的序列称为距平序列
距平序列的平均值为0
距平序列与原始序列相比，演变趋势没有改变

在这里插入图片描述

中心化

将资料处理为距平的方法称为中心化
why：因为气象要素的年变化周期影响很大，各月的平均值不一样，为了使之能在同一水平下比较，常使用距平值

2. 距平百分率

距平 / 平均值 *100%

消去均值不同造成的差异

3. 标准差（均方差）与方差

方差： $s^2$
标准差：s

衡量样本中数据与平均值差异的平均状态
反映变量以平均值为中心的平均振动幅度

向量表示：用距平序列和距平序列的转置表示

原始序列和距平序列相比：趋势不变，标准差不变

4. 变差系数（变异系数、离散系数）

标准差和平均值之比

衡量资料中观测值的变异程度
可以消除单位或均值不同对于多个资料变异程度程度比较的影响
在这里插入图片描述

5. 变率

表征变量值变化幅度大小

绝对变率

就是绝对值版的标准差
在这里插入图片描述

相对变率

变率除以平均值
就是变差系数的变率版
在这里插入图片描述

6. 标准化处理

由于各个要素的单位不一样，平均值和方差也不同，为了让数据在同一个水平上进行比较，就要消除量纲的影响

在这里插入图片描述

性质

标准化序列的均值为0，方差为1
标准化处理之后，变量的值一般落在-3~3之间，不在这个区间的概率仅为0.0027
一般距平达到或大于2被标准差的概率不到5%，可以确定异常标准

7. 汇总图

在这里插入图片描述

反应平均状况的统计量：平均数，中位数，众数
反应异常情况的统计量：距平，方差，均方差，累计距平，变率和变差系数
对资料的三种预处理中心化，正态化，标准化
几种相关系数：简单相关系数，自相关系数，落后交叉相关系数，偏相关系数，复相关系数

二. 正态分布

在这里插入图片描述

正态分布的长相由其期望值和标准差决定
标准正态分布的期望为0，标准差为1

1. 3sigma原则

在正态分布中，落在均值正负1倍标准差之间的概率为68%
落在均值正负2倍标准差之间的概率为95%
落在均值正负3倍标准差之间的概率为99.7%

2. 偏度系数

衡量这正态分布的对称情况

g1>0 右偏最高峰偏左，表示均值在峰值右边
g1=0 不偏
g1>0 左偏最高峰偏右，表示均值在峰值左边

3. 峰度系数

衡量这个正态分布的高矮胖瘦

g2>0 瘦高
g2=0 正常
g2<0 矮胖
越瘦高说明在中间的值越集中
越矮胖说明数据越平均

4. 正态分布的统计检验

当样本量n 足够大时，标准偏度系数和标准峰度系数都以标准正态分布N(0,1) 为渐近分布

因此g1和g2都要通过标准正态分布表进行统计检验

三. 统计检验

核心思想：小概率不可能发生

1. 步骤

明确要检验的问题，提出统计假设，确定原假设和备选假设
确定显著性水平α
针对研究问题，选取一个适当的假设检验统计量，此统计量满足一定的概率密度分布形态
根据观测样本计算有关统计量
针对统计量满足的概率密度分布形，对给定的α，查对应的数值，即确定出临界值
比较统计量计算值与临界值，判断是否显著

2. 两类错误

拒绝了实际上成立的H0，称为弃真错误
接受了实际上不成立的H0，称为取伪错误
一般来说以拒绝假设的结论为好

四. 多要素资料统计特征的基本统计量

1. 协方差

协方差代表了两个变量之间是否同时偏离均值

自身的协方差——方差
协方差为正说明两者的变化趋势相同，为负说明变化趋势相反
不能说协方差大的相关性就强
矩阵表达

2. 相关系数

协方差是带有单位的统计量，不便于比较
使用标准化后的序列计算协方差——就是相关系数
计算时： $=\frac{协方差}{标准差之积}$
使用距平序列时
相关系数还等于标准化之后的协方差
矩阵形式的就用标准差序列进行计算

取值和意义

相关系数的取值范围为-1到1
相关系数为正说明正相关，反之负相关
相关系数越大说明两个变量线性相关性越强

显著性检验

使用t分布检验

原假设：假设两个变量相关系数为0（不相关）
假设在不相关的情况下，相关系数r符合自由度为n-2的t分布
自由度：指样本中可以自由变动的变量的个数，当有约束条件时，自由度减少
自由度例子：一组数据，若平均数一定，则这组数据有n-1个数据可以自由变化；若限定了某两数的取值，则自由度为n-2
t统计量的公式
整体流程

在这里插入图片描述

3. 自协方差和自相关系数

自协方差

衡量某一气象要素不同时刻之间关系密切程度的量

由于有不同时刻，因此要定义时间间隔

在这里插入图片描述

自相关系数

自相关系数是描述某一变量不同时刻之间相关的统计量

记得s是整个样本的标准差，有时间差的序列的也用的是整体样本的s
滞后长度 $\tau$ >0,为滞后相关系数：原序列相对于滞后序列是落后的
滞后长度 $\tau$ <0,为超前相关系数：原序列相对于滞后序列是超前的

统计检验——t检验

也可以使用t检验，但是使用的自由度有选择

非高自相关变量----变量无持续性——t检验中自由度为n-2
高自相关变量----变量本身有强持续性或高自相关——自由度需要用有效自由度

有效自由度 = $\frac{n}{T}$
(出到就指望T会给出来就好)

4. 落后交叉协方差与相关系数

用来衡量两个变量不同时刻之间的相关密切关系

落后交叉协方差
落后交叉相关系数

5. 复相关系数

反映预报因子集的优劣程度的数量指标。

先求出复相关系数矩阵
意义：代表多个因子共同对y的影响
就是在相关系数矩阵的基础上加上预报量的一行
$R=\sqrt{\frac{U}{S_{yy}}}$ ，就是sqrt（回归残差平方和 / 预报量残差平方和）

6. 偏相关系数

在消除其他变量影响的条件下，所计算的某两变量之间的相关系数
在这里插入图片描述

写出复相关矩阵之后， $R_{ii}$ 就是指的是去掉 $x_{ii}$ 之后代数余子式的值，带入公式即可，注意代数余子式中需要考虑是奇数行/列需要乘以-1的问题
注意代数
比如当m=2的时候

五. 气象资料的审查与订正

1. 区域资料整理

代表站法：平均相关系数最大的台站
区域平均法：取区域的平均值
综合指数法
实际工作中：用代表站法将异常值剔除，之后用平均法

2. 资料的审查与订正

插补
纠正
延长

3. 资料的质量标准（误差来源）

观测误差

系统误差
随机误差
过失误差

抽样误差

取得样本尽量大，就可以减少这种误差

质量要求

准确性
均一性
代表性
比较性

4. 审查方法

技术性审查：满足均一性，避免由于测站迁移，仪器更新，观测时次带来的不均一性
合理性：
1. 本站前后资料比较
2. 区域资料比审
3. 气象要素相关法

5. 订正方法

回归订正
差值订正：一般用于气温，气压得订正，因为相邻测站得差值一般为定值
比值：一般用于降水量，相邻测站的降水比值一般是固定的

六. 气象上的二分类事件

在这里插入图片描述

准确：预报有雨，真的有雨
漏报：预测没雨，结果有雨
空报：预测下雨，结果没雨
命中率： $\frac{准确}{准确+错误}$
误报率： $\frac{误报}{误报+（预报无雨真的无雨）}$
空报率: $\frac{空报}{正确+空报}$

条件概率

在事件B已经发生的条件下计算事件A的概率，称为事件A在事件B已出现条件下的条件概率，记为P(A/B)

在这里插入图片描述

天气预报指标必须满足的两个条件

P(A/B)---->1或P(A/B)---->0
为了保证预报指标有一定准确率
P(A/B)>>P(A)或者P(A/B)<<P(A)
为了保证A,B之间有一定联系

独立事件满足的条件

在这里插入图片描述

概率为0的事件与任何事件相互独立；
若事件A和B相互独立，则A拔与B独立，A与B拔相互独立， A拔与B拔也相互独立

二项分布

二分类预报：只预报事件A出现或者不出现，又称为正反预报
在这里插入图片描述

符合二项分布的三个条件

每次实验只有两个结果
实验条件不变，每次均有 $P(\bar{A})=q, P+Q=1$
每次实验都具有独立性

二项分布的统计检验

构造Q统计量

Q统计量用于检验某一条件概率所指事件是属于偶然性还是有规律性的一种方法
在条件B时，事件A发生的概率为 $\frac{m}{n}$
Q统计量的意义就是：在n次观测中，事件A出现m次及以上的概率

在这里插入图片描述

一般取显著性水平为0.05或0.1，如果Q算出来小于0.05或0.01，则认为是小概率事件，在一次试验中不可能出现，但在条件B影响下发生了，说明B起的作用

一元线性回归

意义：利用回归分析方法分析多个预报因子和预报变量之间的相互关系，建
立统计关系的方程式，最后利用其对未来时刻的气温或降水量作出预报估计

在这里插入图片描述

一元线性回归是处理两个变量之间的关系
使用最小二乘法来求回归方程，就是让预测值和真实值之间的误差的平方和达到最小
误差平方和Q
使其达到最小就是让Q对b和b0分别求偏导而且取极值，就是Q达到最小的时候对应的b和b0，就是要求的回归系数
最终得到

标准化形式的回归方程

其中b可以用相关系数来表示，从而变换出相关系数表示的回归方程

带入

得到
回归系数和相关系数之间是同号关系
因此r的正负就决定了回归系数b的正负

回归方程的优劣

就是表示预报因子的波动能在多大程度上描述预报量的波动

预报量的方差= 回归方差+误差方差
回归方差越大，说明用线性关系解释y与x的关系比较符合实际情况，回归模型越好
误差方差越大越不好
上式都乘以n还可以表示成总离差平方和( $S_{yy}$ ) = 回归平方和(U) + 残差平方和（Q）
总离差平方和：反映因变量y的n个观测值与其均值的总离差
回归平方和：反映回归值的分散程度
残差平方和：反映观测值偏离回归直线的程度

判决系数

用回归方差 / 预报量方差可以衡量方程的拟合效果，这个比值叫做判决系数

如果这个比值越接近1，说明误差方差越小，拟合越好

由此可见判决系数可以用x与y相关系数的平方表示

回归系数的统计检验——F检验

原假设是总体回归系数为0

会发现F检验的公式其实就是t检验的平方

因此回归系数的统计检验和相关系数的检验是一致的

预报值得置信区间

得到得预报值应该给出的是一个范围而不是一个值，这样更合理
可以将**随机误差看作满足 $N(0,\sigma^2)$ **的正态分布
其95%的置信区间为 $\hat{y_i}\pm1.96\sigma$

多元线性回归

描述因变量y依赖于x1,x2…xn多个变量和误差项的方程，称为多元回归模型

在这里插入图片描述

解法

通过构建相关系数矩阵，列出标准化形式的标准方程组，之后进行求解

最终解**多元线性方程组，得到b1,b2…**的值就是回归系数

多元线性回归系数的F统计检验

遵从分子自由度为p，分母自由度为n-p-1的F分布

在这里插入图片描述

回归平方和=> 回归方差=> 自变量和因变量的相关系数和回归系数之积
残差平方和=> 残差方差=> 1-回归方差
这两者都有简便的运算

逐步回归

一般而言，回归方程中因子个数越多，回归平方和越大，残差平方和越小
但是因子增加到一定数目时，残差平方和下降的幅度就很小了，甚至会影响回归方程的稳定性，使预报效果下降
选择因子的时候，要求因子之间相关系数越小越好，各因子和预报量之间相关系数越大越好
因此要选择影响显著，而且残差方差很小的因子
用穷举法取找最优解不是很实际
有三种方案逐步剔除方案，逐步引进方案，双重检验方案

方差贡献大小

要衡量因子的贡献，用到方差贡献
也叫偏回归平方和，衡量每个因子对回归方程所起作用的大小
方差贡献 = 有这个因子时的回归平方和 - 没有这个因子的回归平方和

方差贡献是否显著

也是用的F统计量
在这里插入图片描述

逐步剔除方案

从包含全部变量的回归方程中逐步提出不显著的因子

缺点：计算量较大
步骤：

从全部因子的方差贡献中选择最小的那个
对那个因子进行F统计检验，如果不显著就剔除，如显著那其他的因子也是显著的；此时的F检验中的自由度是引入之后的因子数

逐步引进方案

基本思想：在一批待选的因子中，考查他们在一元回归方程中对预报量y的方差贡献，挑选所有因子中方差贡献最大者，经统计检验是显著后，进入回归方程
步骤：

第一轮的时候回归方程中没有任何因子，U（回归平方和）为0，分别将因子带入，选择方差贡献最大的
之后对这个因子进行显著性检验
依次循环

第一轮的时候
在这里插入图片描述

之后的每一轮中，还是用这种方式引进因子

双重检验方法（重点）

1. 构建相关系数增广矩阵

在这里插入图片描述

2. 引入方差贡献最大的因子

考虑引进第一个因子的时候，建立引进因子的回归方程
然后计算方差贡献，引进方差贡献最大的那个因子
方差贡献V公式为

3. 进行F检验确认是否引入

假设p个因子中 $x_{zk}$ 的方差贡献最大，记 $V_max$ ，之后进行F检验
F检验的临界值一般取4，作为否定域的临界值
如果通过了F检验就引入
引入方式就是对第k个因子在相关系数矩阵中进行如下变换，得到新的相关系数矩阵

4. 剔除因子

因为引入因子之后，原来因子的方差贡献会发生变化，可能不显著，因此要进行剔除
仅在引入了第三个因子之后才考虑剔除
上一步引入的下一步不可能剔除，上一步剔除的下一步不可能引入
找出方差贡献最小的因子，进行F检验
如果不显著就剔除，之后对因子所在列进行消去
如果要剔除，就再用这个对相关系数矩阵进行变换，对一列引入后又剔除等于变换了两次等于没变换，就像这个因子没有引入过方程一样

循环

之后循环上述步骤：每次先考虑有无因子可以剔除，如果有就剔除，没有再考虑引入新因子，直到没有因子剔除有没因子可以引入

逐步回归案例

1. 原始数据和相关系数矩阵

原始数据：x为不同的预报因子，y为预报量，横坐标代表不同时次
构造对应的相关系数矩阵

2. 计算方差贡献最大的因子

计算各个因子的方差贡献，引入方差贡献最大的
选方差贡献最大的V4，计算F，大于临界值，可以保留

3. 引入因子

上一步选出了第四个因子需要引入，就对相关系数矩阵进行变换
变换后得到新的矩阵

4. 重复上述步骤

计算剩下各项的方差贡献，并将最大的进行F检验
检验通过，引入第一列，对矩阵进行变换
得到新矩阵R2
再次重复，引入第二列，得到R3

5. 对已经引入的进行剔除

此时已经引入了三个，可以对已经引入的进行显著性检验了
分别计算三个已经引入的因子的方差贡献（第二列是上一步引入的，这一步不考虑剔除）
发现第四列不能通过显著性检验，需要剔除，就对第四列再次进行变换

6. 计算余下因子的方差贡献

这样只剩下第三列了，计算第三列的方差贡献
发现最后这个因子不能通过显著性检验，此时无法剔除也无法引入，结束

双重检验的优缺点

优点

和逐步剔除法相比，计算量较小。
和逐步引入法相比，计算量较大，但是此方法可以保证最后的方程是最优的。
双重检验逐步回归方法最后能得到一个较合理的“最优”回归方程。

缺点

该方法最终只提供一个 “ 最优”回归方程，而无其它选择的余地。
其次，需要解决较大阶数的矩阵，对于手算有较大的工作量。

气候变化趋势分析

研究对象：气候时间序列
气候序列的基本特点：

数据取值随时间变化；
每一时刻取值的随机性；
前后时刻数据之间存在相关性、持续性；
序列整体有上升或下降趋势，或呈周期振荡；
某一时刻数据取值出现转折或突变。

线性倾向估计

就是气候变量和时间之间的一元线性回归
相比之前的一元线性回归是气候变量和预报量之间的回归
可以理解为也是一元线性回归的一种
含义：用一条直线表示变量x与时间t之间的关系，可用最小二乘法进行估计
回归系数b称为倾向值，b>0说明随时间呈上升趋势，反之下降趋势，绝对值越大上升/下降速率越大
相关系数和倾向值反应的意义是一致的

公式

和一元线性回归相似

滑动平均

滑动平均相当于一个滤波器，滤去高频信息，保留低频信息
滑动平均最终也是一个序列，指定了滑动长度后，依次滑动区间，区间的均值作为该点的值
滑动平均求得的是各个时刻的趋势值
序列头尾信息不能体现，会有信息的缺失

公式

在这里插入图片描述

形象一点，用图标是就是，取定滑动长度后，依次滑动长度区间，计算滑动长度区间中的均值，作为一个序列

结果分析

做出滑动平均序列后，可以观察到演变趋势是上升还是下降
滤去了高频信息

累计距平

当前时刻的累计距平就是将当前时刻之前的距平值累加起来，最后也是一个累计距平序列

公式

先计算距平序列
之后每个时刻的累计距平就是将该时刻之前的距平值累加起来

计算结果分析

累积距平曲线呈上升趋势 ，表示累积距平值增大（正距平）， 气候变量以偏多（高）状态为主；
呈下降趋势 ，表示累积距平值减小（负距平），气候变量以偏少（低）状态为主；
从曲线明显的上下起伏，可以判断其长期显著的演变趋势及持续性变化 ，甚至还可以判断出发生突变的大致时间 。从曲线小的波动可以考察其短期的距平值变化

二次平滑

滑动平均的变体，也起到低通滤波作用，展现出变化趋势
相比滑动平均的有点：相比滑动平均它可以保留更多细节，克服滑动平均削弱过多波幅的不足
可以得到五点二次平滑，七点二次平滑，九点二次平滑

公式

在这里插入图片描述

变化趋势的显著性检验（Z检验）

线性倾向估计可以用相关系数的显著性检验进行判断
滑动平均，累计距平用Z检验

公式

就是将该点和该点之后的点分别进行比较，如果之后的点比该点大，该点的r值+1
之后用r序列，计算Z统计量
显著性水平为0.05， $Z_{0.05}$ 为

基本气候状态的统计检验

对均值/方差差异进行显著性检验

根据样本来源分为两类：

检验来自同一样本的数据是否有稳定性
检验不同样本之间是否存在显著性差异

根据数据情况又分为两类：

总体方差已知
总体方差位置

u检验

对均值的显著性检验，总体方差已知
适用条件：

总体均值，方差已知
对遵循正态分布的大/小样本适用
如果样本量足够大，不遵循正态分布也适用

统计量表示

样本和总体之间
不同两种样本之间

显著性检验

原假设：假设均值之间没有显著性差异
判断u统计量绝对值是否大于临界值即可

t检验

用于对均值的显著性检验，总体方差未知
适用条件：

总体均值已知，方差未知
对于遵从正态分布的样本，小样本量也适用

统计量表示

样本和总体之间
样本和样本之间
如果样本量足够大，可以按下式计算

显著性检验

原假设：假设均值没有显著性差异
查自由度为n-1的表，比较绝对值和临界值的大小，如果是两个变量之间，查自由度为n1+n2-2自由度的表

卡方检验

用于对方差的显著性检验，总体方差已知

统计量表示

如果已知样本方差，总体方差
如果已知样本均值和总体方差

显著性检验

原假设：假设方差之间没有显著差异
自由度为n-1
对于选定的临界值，需要进行双侧检验

F检验

用于对方差进行显著性检验，总体方差未知

统计量表示

显著性检验

原假设：两者之间方差没有显著性差异
有双自由度，
$v_1 = n_1 -1 ;v_2 = n_2 -1，其中v_1称为分子自由度，v_2称为分母自由度$
在查表的时候一般只能查到 $F_\alpha$ 而查不到 $F_{1-\alpha}$ ,这时候需要用到一个性质——交换自由度顺序之后为交换前的倒数，就可以获取下分位点的值了