1 变点理论
变点理论是统计学中的一个经典分支,其基本定义是在一个序列或过程中,当某个统计特性(分布类型、分布参数)在某时间点受系统性因素而非偶然性因素影响发生变化,我们就称该时间点为变点。变点识别即利用统计量或统计方法将该变点位置估计出来。具体定义如下:
假设存在一个数据集,每个数据观测值相互独立,如果在某一时刻,模型中的某个或某些变量突然发生了变化,即存在一个时间点,在该点之前,数据集符合一个分布,在该点之后,数据集符合另外一个分布,则该点为该数据集的变点。
变点识别即利用一定的统计指标或统计方法,对时间序列的状态进行观测,以便准确有效的估计出变点的位置。变点问题作为统计学中的一个重要课题,最早应用于工业质量控制,后延展到金融经济、计算机、气象学、流行病学等多个领域。
自20世纪70年代以来,许多统计学家投入到了变点问题研究领域,并取得了部分成果,一些估计和检测变点问题的方法也不断发展完善,如累计平方和方法、迭代累计平方和方法、Bayes方法、极大似然法、局部比较法、小波分析法等。
从监测目的来看,分为事中变点(连续抽样)和事后变点(固定样本),前者指连续观察某一随机过程,监测到变点时停止检验,不运用到未来数据,主要用于事件预警,后者从已获得的时序数列中检测过去的变点位置,主要用作历史检验。
从监测内容来看,分为单变点研究和多变点研究。目前大多数研究集中于单变点区域,即假设研究的时序数据中至多只有一个变点。但实际情况一般都存在多个变点,由此衍生了多变点的研究问题,但在研究阶段,大部分学者都是先确定变点数目,再探究变点位置,由此研究方法大打折扣。
2 CUSUM算法
2.1 正态分布
正态分布(Normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。若随机变量X服从一个数学期望为μ、标准方差为σ平方的高斯分布,记为:X∼N(μ,σ2)。则其概率密度函数为:
正态分布具有以下特点:
(一) 集中性:正态曲线的高峰位于正中央,即均数所在的位置。
(二) 对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。
(三) 均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。
实际工作中,正态曲线下横轴上一定区间的面积反映该区间的例数占总例数的百分比,或变量值落在该区间的概率(概率分布)。不同范围内正态曲线下的面积可用公式计算:
(一) 横轴区间(μ-σ,μ+σ)内的面积为68.268949%。
(二) 横轴区间(μ-1.96σ,μ+1.96σ)内的面积为95.449974%。
(三) 横轴区间(μ-2.58σ,μ+2.58σ)内的面积为99.730020%。
由于“小概率事件”和假设检验的基本思想 “小概率事件”通常指发生的概率小于5%的事件,认为在一次试验中该事件是几乎不可能发生的。由此可见X落在(μ-3σ,μ+3σ)以外的概率小于千分之三,在实际问题中常认为相应的事件是不会发生的,基本上可以把区间(μ-3σ,μ+3σ)看作是随机变量X实际可能的取值区间,这称之为正态分布的“3σ”原则。
2.2 标准差
标准差也被称为标准偏差,或者实验标准差,公式为:
2.3 CUSUM
传统的变点检测大多基于统计原理,包括最小二乘法、极大似然法、贝叶斯方法等。随着统计控制过程(SPC)的兴起,控制图技术迅速发展开来,并广泛应用于工业生产之中。控制图即运用典型的数理统计方法,判断产品是否偏离典型分布,甄别是否存在异动。
目前在统计过程控制中最成熟的是三大控制图:休哈特控制图(Shewhart)、累积和控制图(CUSUM)以及指数加权滑动平均控制图(EWMA)。其中最传统的休哈特控制图(mu-3sigma,mu+3sigma)在金融投资中的应用是布林带,EWMA则同指数加权均线比较接近。
累积和图不使用原始数据、均值、极差或标准差记录数据,取而代之的是有代表性的近似数,通过不断累积偏差,并将微小异动不断放大,从而对系统偏离稳态的情况进行预警。
基本上,使用累积和图的原因可以归结为敏感性,能够更加灵敏地侦测均值的微小偏移,这在样本数偏小时优势尤为明显。敏感性高带来的另外一个好处是可以降低风险。
参考文献[1]给出CUSUM的具体计算方法:
并利用过程来判定输入序列中是否存在变点,需要注意以下两个概念:
(一) “bootstrap analysis”过程实际就是将原始输入采样序列进行随机重排序,然后再按下图所示进行处理,求取对应Sdiff,从而最终决定是否存在变点。
(二) “Confidence Level”:通过“bootstrap analysis”过程判断的变点可信度。
另外参考文献[1]还提出一种通过“ mean square error (MSE)”判断变点的方法:
参考文献[1]对多变点检测的描述(感觉这个多变点的检测方法并不适合实时监测):
参考资料[4]中同样对CUSUM的理论定义,推导公司给出详细说明,其中需要关注其在质量与过程控制中“V-Mask”方法的说明(特别是表格形式,Tabular or Spreadsheet Form of the V-Mask),其中,对于参数h,k的确认需要进一步深入学习。
3 参考文献
[1]《Change-Point Analysis: A Powerful New Tool For Detecting Changes》;
[2]《变点理论在择时中的应用:CUSUM控制图》;
[3]《累积和控制图参数选取方法》;
[4]http://www.itl.nist.gov/div898/handbook/pmc/section3/pmc323.htm;
[5] ftp://wise-ftp.tau.ac.il/pub/eran/matlab/TimeSeries/;
[6]《变点统计分析简介》;