时间序列建模--近似熵等

最新推荐文章于 2024-05-17 16:46:36 发布

王凯2012

最新推荐文章于 2024-05-17 16:46:36 发布

阅读量4.7k

点赞数

分类专栏：在大学-数学建模

本文链接：https://blog.csdn.net/u013599826/article/details/32332517

版权

在大学-数学建模专栏收录该内容

24 篇文章 11 订阅

订阅专栏

//2014年6月20日入“未完成”

//2015年1月14日

//这还是当年校赛的题目，就是对比实验组和对照组，但只给出了时间序列

//时间序列的指标是什么呢，当时只会时间序列的预测（ARMA之类）和信号处理。

//于是就去看动力学、混沌理论，虽然这些理论都很不实用。

//但是时间序列作为一种普遍的数据形式，很值得研究。（像股票价格）

//我现在学的数据挖掘里好像也没有这方面知识，不过这应该算是从时间序列里如何提取特征

//总之，从这里可以一窥研究时间序列特性的思路方法。

http://hi.baidu.com/brooksbrooks/item/c7e418754bcc9d366cc37ce2

http://www.physionet.org/physiotools/mse/papers/pre-2005.pdf

衡量生物信号复杂性的传统方法不能够解释蕴含在时间序列中的多个时间尺度。当运用这些分析算法于实际患病与健康人群的数据时，可能会得到冲突性的结论。

生理系统是由多个时空尺度下复杂机制所调节控制的。系统的输出往往展现出复杂的波动，这不仅仅是由于混有干扰信号，同时也包含了深层的动力学信息。对时域信号的两种经典分析方法可归为确定性与随机性机制。前一种分析方法的是基于Takens系统理论，其中指出可以通过监控一个单一变量的输出来得到高维系统的全部信息。但是由于实验中的时域信号，特别是由确定性机制产生的，大部分都会受到动力学噪声的影响，所以只采用单一的确定性研究方法会受到很大局限。此外，在实际应用中需要先进行低维动力学假设，然后对结论进行内部一致性检验。

随机性方法旨在量化输出变量的统计学性质，并建立能够分析这些性质的可检测模型。扩散模型就是一个关于随机性分析方法如何助于探究分析动力学系统的经典案例。在“宏观”层面上，扩散定律可以从菲克定律和质量守恒定律中推导出来。另一方面，在微观尺度上，假设每个粒子是进行无规行走的，在特定方向上运动L距离的概率为P，从而可以推导出扩散方程。布朗运动理论是基于无规行走模型，并且实验结论也助于理解物质的原子特性。生物系统中的时域信号大都包含着随机性与确定性成分。因此这两种研究方法可以其深层动力学性质提供互补信息。在本篇论文中我们对生理信号进行分析所采用的方法，未预先假设是哪种特定系统。相反的，我们的分析方法旨在对不同时域信号进行复杂度比较。这种复杂度相关的指标在区分不同系统或同一系统不同状态下的时域信号上具有非常重要的潜在应用。传统方法是通过检测重复模块的出现频率来量化信号的规律性。但是可以用熵量化的规律度与复杂度直接并没有直接联系。简单的来说，复杂度与“有意义结构的丰富度”相关，与随机事件的输出不同，这展现了相对更高的规律性。基于熵的测量方法，例如熵率和K-复杂度，都会随着随机性的增强而单调递增。因此这些量化方法使得虽然结构上不“复杂”但相当难预测的无关联随机信号（白噪声）的指标值最大，同时在全局水平上采用了非常简单的描述。

因此将传统的熵分析方法应用于生理信号分析时可能会得到错误的结论。例如，这种分析方法结果表明某些病理性心脏节律信号比健康正常人的熵值要高。因此更多的研究聚焦于定义一个可量化的复杂度计算方法，能够将确定性或者可预测的信号和无关联的随机或者无法预测的信号量化为最小值。但是目前在这个课题上还没有达成共识。

我们对这个悬而未决的问题的分析是基于以下三个假设：（i）生物系统的复杂度反映了其在变幻莫测环境中的适应能力及所起功能的大小；（ii）生物系统需要跨越多个时空尺度进行控制，因此它们的复杂度也是多尺度的；（iii）一大类疾病状态和衰老会降低个体适应能力的下降，同时也可能会导致输出变量蕴含信息量的下降。因此复杂度降低可能是病理性动力学的潜在表现。总起来说，我们的分析方法定义了一个复杂度测量方法，侧重于量化多尺度下生理动力学的输出信息。

近来我们提出了一个新的分析方法，名为多尺度熵（MSE）。考虑到熵和尺度间的关系，将尺度纳入MSE分析中来，实验结果从而与所期望的一致，即完全有序和完全随机的信号都不是真正的复杂。特别的是，MSE分析结果表明相关的随机信号（有色噪声）比无关联的随即信号更复杂。相比传统的复杂度量化方法，MSE的优势是可同时应用于有限长度的生理及病理信号。

近似熵与样本熵都描述了信号的随机性（或者是规律性）。但是基于熵的参数并没有给出复杂度与规律性间之间明确的关系。

近似熵的增加通常但不一定反映了复杂度的增加。例如：相对于原始信号，随机化的衍生系列具有更高的熵值，即使原始信号代表着在多个时空尺度上相关性结构的复杂动力学输出。但是产生衍生信号旨在打破信号间的联系，从而降低了原始信号中的信息量。实际上，基于熵的参数在随机序列值最大，虽然大家普遍认为对于完全有序和完全无序的信号不包含复杂结构。因此一个有效的复杂度测量方法应该满足这两种极限情况。

正如前文所述，将近似熵和样本熵应用于生理信号，对于某些病理信号，近似熵和样本熵值都比正常健康状态下的信号的值要高。但是病理状态下的信号反映了更低的适应性，因此可能为复杂性较低的系统。此“不合逻辑”的结论一个原因为近似熵和样本熵是基于单个尺度的。KS熵和近似熵参数依赖于方程的一个参数的差异并且反映了基于先前状态新状态的不确定性。因此这些测量方法不能够分析基于尺度结构与组织的特性。

对于生理系统，Zhang提出了一个将尺度纳入分析的分析方法。Zhang复杂度参数是基于尺度熵的总和。它对极限有序及无序信号具有很好的预见性。但是它是基于香农熵的，Zhang的方法需要大量的无噪声信号，以保证足够的统计精度映射到离散信号上。因此当应用于持续变化并且有限长度的生理信号时，具有明显的局限性。

为了克服这些局限性，我们最近提出了多尺度熵（MSE）方法，应用于生理和病理信号。我们的方法是基于Zhang和Pincus方法。

我们发现熵的渐近值不足以区分不同动力学过程的输出信号。正如图5所示，在尺度20下，心力衰竭（窦性心律）的熵值和房颤信号的熵值是相同的。但是这些信号代表了不同心脏动力学的输出。因此在生理过程中不仅熵测量的具体值并且具体的尺度需要综合一起考虑分析。

其次为评估活性水平，我们比较分析了不同人群睡眠和清醒状态下的心脏间期信号的复杂度。采用充血性心力衰竭组与健康组的24h心脏间期数据，睡眠与清醒数据集是在其中连续提取的2*10^4个数据（5h），包含了最低和最高心率。图6（a）和6(b)展现了在清醒和睡眠时期，最高的熵值以此分布在健康年轻组、健康老年组和充血性心力衰竭组的粗粒化信号中。这些结果进一步支持了自由运行状态下健康年轻组的心脏动力学是最复杂的观点，同时也印证了伴随着衰老与疾病复杂度降低的假说。

即使健康老年组的熵值低于健康青年组的，这两组的MSE曲线是相似的，尤其是在高时间尺度上。事实上，在睡眠-低活性期间，两组人群的熵值主要在低时间尺度上存在显著差别。这些结果与已知的伴随着衰老心脏节律出现高频损失的观点一致，同时表明在小时间尺度上的调节机制包括植物神经系统的副交感神经受衰老影响最大。在高尺度下包括年轻组和老年组的熵值单调递减表明粗粒化序列变得更加规律（复杂度降低），这与先前研究报告健康组在睡眠期存在长程相关性降低相吻合

由于人工和生物代码是可以并行分析的，我们首先分析了两组人工语言的例子：编译版的Linux操作系统，一个可执行的计算机程序和一个不可执行的计算机压缩数据文档，都可以视为二进制编码分析。虽然两个文件都包含有用的信息，但信息的结构有很大不同。来自可执行程序的序列具有长程相关性，而来自数据文件的序列则不含有。这些结果表明相对于计算机数据文档，执行一系列内部可能含有循环指令的计算机程序具有分层结构。因此前者相对于后者更复杂。

对非生理信号的MSE分析结果展示在图（9）中。（i）对于尺度1，来自数据文件的熵值更高；（ii）在尺度2-6之间，样本熵并不能将这两种序列分开；（iii）尺度高于6，来自Linux系统序列的熵值更高。此外，随着尺度增加，差别也越来越大。正如假设，这些结果表明可执行文件的结构相对于数据文件来说更加复杂。值的注意的是，传统的（单尺度）样本熵和近似熵在这些人工语言中的应用文能有意义地量化出整体复杂性。