EEG信号处理基础 | 近似熵、样本熵与传递熵

最新推荐文章于 2024-03-07 14:50:00 发布

面朝东海，春暖花开

最新推荐文章于 2024-03-07 14:50:00 发布

阅读量1.6k

点赞数

文章标签：信号处理算法机器学习

本文链接：https://blog.csdn.net/qq_35658174/article/details/132421772

版权

1、近似熵(Approximate entropy，ApEn)
给定一组原始数据：，共个数据点（和是预先给定的参数，是嵌入维数，是相似容限，也称滤波水平）。具体算法如下：

按照顺序组成一维矢量，即：

将和两者对应元素中差值最大的一个定义为两者之间的距离，记为：

给定相似容限，对每一个值统计得出小于的数目以及此数目与距离总数的比值，记作，即：

先对取对数，然后对所有值求该对数的平均值，记为：

使维数加1，即变成维，重复上述步骤1到步骤4，得到：

我们定义此序列的近似熵为：

当为有限值时，即得序列长度为时 ApEn 的估计值：

由近似熵的定义可知，它的值与和的取值有关。不同的和对应的近似熵是不同的。一般取，，是因为这样计算得到的近似熵的统计特性较为合理。[ 是源数据，的标准差]

近似熵具有以下良好性质：

若要得到较为稳健的估计值，一般只要较短的数据（一般取 100-5000 点即可）。近似熵只是从统计角度来区别各种过程的复杂程度，而不是企图来描述或者是重建奇异吸引子的全貌，因此只需要较短的数据就能达到数据分析的目的。生理信号严格的来说是非平稳的，尤其是脑电信号，其非平稳性更为突出。

抗噪和抗干扰能力较好。通过设置阈值进行检测能够滤除信号中幅值较大的多种噪声干扰，特别是能较好的去除瞬态干扰。因为在采集脑电的过程中，不可能完全避免各种干扰的影响。

适用范围较广，待分析的信号可以是随机信号或者是确定性信号，同时也适用于处理两者组成的混合信号。

近似熵不是非线性动力学特有的参数，前人已经证明，它大体等同于某一条件概率，简单证明如下：

其中，的含义就是条件概率。越大近似误差就会越小。

由上述分析可知近似熵大体等同于某一条件概率，严格来讲并不满足熵的定义。近似熵通过确定一个时间序列在模式上的自相似程度来衡量当序列维数变化时产生新模式的概率的大小。脑电等其他的一些生物医学信号中既有确定性的成分，又有随机性的成分，因此可以利用近似熵对这些信号进行处理。

已有研究所得到的的结论是：在癫痫发作时，EEG信号的相关维数或Lyapunov指数都是呈下降的趋势，但是计算这两个指数的一个很大的缺陷就是需要很长的数据才能得出可靠的结果，但是对于脑电来说，这么长的时间就意味着大脑的非线性动力学参数可能发生“质”的变化。癫痫EEG信号从动力学角度可分为发作前期、发作间期和发作期。从发作间期到发作期的过渡阶段便是发作前期，患者在这一时期可能没有临床上的表现，但其EEG信号的非线性动力学参数相较其他两个时期已经发生了变化，脑电活动呈现出一定的同步和周期化，其复杂度有从高到低变化的趋势，这就意味着癫痫的发作。

根据脑电信号的非线性动力学特性以及患者的临床发作时的症状将癫痫脑电划分为三个时期：发作前期、发作期和发作后期：

在发作前期，虽然没有发作病症，但脑电的某些非线性动力学参数有了显著性的变化趋势。

在发作期，出现了癫痫临床发作症状。

在发作后期，癫痫发作结束，且脑电的非线性动力学参数又恢复到没发作时期的水平

2、样本熵（Sample Entropy，SampEn）
样本熵是对近似熵的一种改进，是一种新的复杂度测试方法。样本熵是条件概率的严格的自然对数，用来表示，式中的为数据序列的长度，维数为及，为相似容限。样本熵与近似熵类似但是精度更好。

样本熵的算法如下：

设原始数据序列为，共个数据点。

按照顺序组成一维矢量，即：

将和两者对应元素中差值最大的一个定义为两者之间的距离，记为：

给定阈值，对每一个值统计得出小于的数目以及此数目与距离总数的比值，记作，即：

则：

将维数增加1，即对于维的矢量，重复上述步骤，得到，即。

理论上来说，此时间序列的样本熵可定义为：

当有限时，上述样本熵定义式可表示成：

样本熵算法具有如下的性质：

不同于近似熵，近似熵计算时不与自身的数据序列作比较，即样本熵与数据的长度无关，它是条件概率的平均自然对数的负值。

相对于近似熵，样本熵具有更好的一致性。也就是说，若一个时间序列较之另一个时间序列有更高的样本熵值，即使是参数改变，那么得到的样本熵值也具有类似的规律。

样本熵对于数据丢失不敏感，即使是数据丢失的比例占到 1/3，对样本熵计算带来的影响也不大。

从以上的讨论来看，我们可以得出结论：样本熵适合应用在对随机过程的研究。

3、传递熵（Transfer Entropy，TE）
传递熵是衡量两个时间序列信息定向传递的指标，如表示传递给的信息量的大小。

假如给定两个时间序列和，其中是时间序列的长度，、分别是第一个观测值，以此类推。可以定义熵率为：

式中，为离散时间指标，为预测时间，代表概率分布，下同。

到传递熵被定义为，有：

同理，可得到传递熵如下：

为了计算方便利用条件概率公式写成：

4、小结
近似熵（ApEn）是一种用于量化时间序列波动的规律性和不可预测性的非线性动力学参数，它用一个非负数来表示一个时间序列的复杂性，反映了时间序列中新信息发生的可能性，越复杂的时间序列对应的近似熵越大。样本熵(SampEn)是基于近似熵(ApEn)的一种用于度量时间序列复杂性的改进方法，在评估生理时间序列的复杂性和诊断病理状态等方面均有应用。

由于样本熵是近似熵的一种改进方法，因此可以将其与近似熵联系起来理解。与近似熵相比，样本熵具有两个优势：样本熵的计算不依赖数据长度；样本熵具有更好的一致性，即参数和的变化对样本熵的影响程度是相同的。

除了近似熵和样本熵以外还有香农熵、Kolmogorov熵、排序熵、多尺度熵、傅里叶熵、小波熵、Renyi熵等。其中多尺度熵（Multiscale entropy, MSE）将样本熵扩展到多个时间尺度，以便在时间尺度不确定时提供额外的观察视角。样本熵的问题在于它没有很好地考虑到时间序列中可能存在的不同时间尺度。为了计算不同时间尺度下信号的复杂性，Costa等人（2002,2005）提出了多尺度熵。

与其他熵测量方法一样，多尺度熵的目标是评估时间序列的复杂性。使用多尺度熵的主要原因之一是不知道时间序列中相关的时间尺度。例如，在分析语音信号时，在单词时间尺度下统计信号的复杂度会比统计整个语音片段的复杂度更加有效。但如果你不知道音频信号代表语音，甚至对语音概念没有任何了解，你就不知道应该运用什么时间尺度以从原始信号中获得更多有用的信息。因此，通过多个时间尺度来分析问题将会得到更多信息。在脑电图中，潜在的脑电模式是未知的，因此相关的时间尺度也是未知的。所以，需要通过多尺度样本熵来分析哪个尺度对特定场合下脑电信号的分析更有用。

传递熵是一种基于概率分布，香农熵，统计的方法得出时间序列间因果性的方法。这种方法首先提出是在PRL上由T.Schreiber 提出的，又用在生物系统中。由于传递熵所需的时间序列长度较大，所以在普遍数据量较小的时代，只能用在神经信号和脑电图中。现在很多地方都意识到数据的重要性，各种传感器也被大量应用，原本不存在的数据来源慢慢的也被发掘了。传递熵是一个条件分布带来的探测到时间序列间的不对称性（传递熵Y到X和由X到Y是不对称），可以计算这个信息传递能减少多少被观测系统的不确定度。这种不对称就带来了驱动和响应的关系的建立。作者：萌毛玉 https://www.bilibili.com/read/cv14867071 出处：bilibili