看《实用极值统计方法》--史道济所得。
前言
用GEV(广义极值分布)模型对实际数据进行建模时,一般按以下步骤进行:将观测值序列平均分为长度为m的k个组,每个组中选取最大值记为,那么就是每个组的最大值组成的序列。只要够大,就可以近似地看成时来自GEV分布的一个独立同分布观测。但是这种方法有时会造成数据信息的浪费。比如某些组内可能包含更多的极值信息。因此,为了充分地利用数据中的极值信息,应该考虑数据中超过某个阈值的所有数据,并利用这些数据进行建模。
一、平均超出量函数
设为独立同分布的随机变量序列,分布函数支撑的上端点为,对某固定的大值,称为阈值。若,则称它为超阈值,称为超出量,那么
称为随机变量X(或分布函数F)的超过阈值的超出量的分布函数,简称超出量分布。对应的密度函数为
而随机变量X(或分布函数F)的超阈值分布函数为:
,
对应的密度函数为
X的平均超出量函数。
在极值分析中,有时也关心超过阈值的观测个数。设为独立同分布的随机变量序列,且底分布函数F,K表示数据集中超过的个数,那么:
其中,所以,超过阈值的平均超阈值个数为:
二、重现水平
机制分析的主要目的之一是估计分位数。现把作为阈值,设是独立同分布随机变量, 底分布为F,对某个阈值,考虑超阈值事件,要求每年只有一个观测值,为第i年的观测,那么所谓T年重现水平就是要求在T年内超过阈值的平均次数为1.
显然,由,,得:
,即是F的分位数。
考虑一个独立同分布随机变量序列设第一次出现超过阈值的时间为
第r次出现超过阈值的时间为:
。
其中。故首次超过阈值的时间服从参数为q的几何分布。且可以证明,相邻两次超过阈值的时间间隔是独立同分布的,即
理解:一些概念,其符号各不相同,但是其实它们在算式中的意义是相同的。不要隔绝地看,要相互联系地看。必要时,可以画一张图,形象地将各符号标在图上。