《CLPVG:圆形有限穿透可见性图作为一种新的时间序列网络模型》论文阅读

摘要

可见性图(VG)将时间序列转换成图形,方便了高级图形数据挖掘算法对信号的处理。本文在经典的有限穿透可见图(LPVG)方法的基础上,提出了一种新的非线性映射方法——圆形有限穿透可见图(CLPVG)。通过对典型时间序列生成图的度分布和聚类系数的测试,验证了CLPVG能够有效捕获时间序列的重要特征,并且具有比传统LPVG更好的抗噪能力。在真实的无线电信号和脑电图时间序列数据集上的实验也表明,CLPVG提供的结构特征比LPVG更适用于时间序列分类,具有更高的准确率。通过采用子图网络(Subgraph Networks, SGN)进行结构特征扩展,可以进一步提高分类性能。这些结果验证了我们的CLPVG模型的有效性。

时间序列和图表是两种流行的方式来表示大数据在各个领域,包括社会学,生物学和技术。为了更有效和高效地处理这类数据,人们正在开发许多算法。最近,能见度图(VG)被提出,将时间序列映射成图形,以便于利用复杂网络理论和图数据挖掘对时间序列进行理解和分析。此后,人们提出了一系列从时间序列中构造图的新方法,如有限穿透可见性图(LPVG)。本文在LPVG的基础上,首次将圆系统引入到LPVG的构造中,提出了圆形有限穿透可见性图(CLPVG)。在人工数据集和真实数据集上的综合实验验证了CLPVG抗噪声的有效性,特别是在采用子图网络(Subgraph Network, SGN)扩展结构特征空间时,CLPVG的时间序列分类性能优于LPVG。我们希望我们的工作能够引发对可见性图研究的爆发,从而增强我们对复杂时间序列的理解,并进一步开发先进的图数据挖掘算法用于信号处理。

1.介绍

时间序列在现实世界中非常流行,提取其隐藏信息是理解互联网、通信、生物、金融等各个领域许多复杂系统的关键。近年来,各种各样的机器学习方法被应用于时间序列分类,将序列直接作为训练机器学习模型的输入。由于计算机视觉和网络科学的快速发展,时间序列也被映射成图像或图形,因此可以采用卷积神经网络(CNN)和图神经网络(GNN)等深度学习算法进行时间序列分类。在本文中,我们主要研究时间序列到图的映射。

可视性图(VG)被认为是第一个将时间序列映射到图的模型,它曾经是计算几何和机器人运动中的经典方法。VG模型的提出为时间序列分析打开了一扇新的大门,其构造图的结构继承了时间序列的一些重要性质。然后,提出了一系列映射规则,建立时间序列的各种网络。例如,Lacasa等人提出了一种几何上更简单的算法——水平可见度图(Horizontal Visibility Graphs, HVG),由于其约束更严格,得到的图平均度比VG模型得到的图小,在脑电信号分类中取得了令人满意的结果。Zhou et al . 和Gao et al . 提出了有限穿透可见性图(Limited Penetrable Visibility Graph, LPVG),认为可以将VG中的不可见点连接起来更好地处理噪声信号,在两相流型识别中取得了很好的效果。然后,将有限穿透HVG (Limited Penetrable HVG, LPHVG)作为HVG的直接扩展,成功地应用于脑电信号和机电信号的处理。此外,还提出了考虑节点权值的模型,表示点的重要性和边的方向,表示时间的不可逆性。这些VG变体的出现为分析不同类型的时间序列提供了不同的映射方法。这些方法已被广泛用于解决不同研究领域的挑战性问题,如金融学、生理学、气象学和海洋学、地理学等。

在本文中,我们尝试提出一种更灵活的映射方法,即圆形有限穿透可见性图(CLPVG),通过在LPVG模型中引入非线性。为了验证模型的有效性,我们首先比较了CLPVG和LPVG从两个典型的时间序列(周期混沌信号)中得到的图的度分布进行定性分析。然后,我们利用这些图对几个人工和现实世界的时间序列进行分类,进行定量比较。在分类实验中,我们利用子图网络(Subgraph Networks, SGN)进一步扩展得到的图的结构特征空间。在将从映射图中提取的特征与其sgn合并后,我们进一步使用主成分分析(PCA)降维,随机森林(RF) 作为分类器实现时间序列分类。

本文的主要贡献如下:

•通过引入非线性,提出了一种新的可见度图模型,即圆形有限穿透可见度图(CLPVG),以更灵活的方式表示时间序列。在人工和真实时间序列数据集上的实验验证了CLPVG在大多数情况下优于LPVG。

•首次利用子图网络(Subgraph Network, SGN)对LPVG和CLPVG获得的可见性图的结构特征空间进行扩展。我们发现SGN确实可以增强LPVG和CLPVG在时间序列上的分类精度。

•据我们所知,这也是第一次将可见性图模型LPVG和CLPVG应用于信号调制识别,取得了合理的性能,并且有很大的改进潜力。

本研究的其余部分组织如下。在第二节中,我们介绍了我们的CLPVG,以及VG和LPVG模型作为基础。在第三节中,我们解释了如何构建子图网络(Subgraph Networks, SGN),以扩展所获得的可见性图的结构特征空间。然后,我们在第四节给出了实验结果,并在第五节对论文进行了总结。

 2.时间序列可见性图模型

在这一部分中,我们将首先介绍三种可见性图模型,包括VG、LPVG和CLPVG。然后,我们在人工时间序列数据集上比较了LPVG和CLPVG。

(1)可见性图

可见性图(VG)模型的目的是从时间序列构建网络。然后最重要的是确定什么是顶点以及它们如何连接。这里,我们以一个单变量时间序列为例,该序列固定为\{x_i\}_{i=1}^n, xt = x (ti)。每个采样时间点视为一个顶点,两个顶点(ta;xa)和(tb;xb)连接,如果对于每个采样点(tc;xc),且ta < tc < tb,则满足

 

 建立VG的过程如图1所示。

 (2)有限穿透可见度图

为了提高能见度图模型的抗噪声性能,在此基础上提出了有限穿透性能见度图(LPVG)。LPVG给出了穿透能力的可见性线,这意味着在VG中由于噪声无法连通的边缘可以在LPVG中连通。与VG相比,LPVG还定义了一个有限穿透可见距离M。给定任意两个采样点(ta;xa)和(tb;xb)。LPVG的可见性准则可以描述为当且仅当不超过M个采样点(tc;xc),且ta < tc < tb满足判据:

 

 而其他采样点均满足式(1),则它们之间可以建立相互连接。在LPVG模型的基础上,新增了图1 (c)所示虚线表示的可见性线,构造的图又增加了三条边,即(2,4)、(3,5)和(3,6),如图1 (d)所示。

(3)圆形有限穿透可见度图

在数学中,满足一定条件的一组圆称为圆系,描述圆系的方程称为圆系方程。

如图2所示,给定时间序列中的任意两个数据点,我们考虑选择经过这两个点的圆集作为圆系统,该圆系统可以用

基于LPVG有限穿透性的思想,使图的构造更加灵活,我们将圆系统与LPVG相结合,提出了圆形有限穿透可见性图(CLPVG)。与LPVG相比,CLPVG的主要区别是能见度线被能见度弧线所取代。请注意,此处选择小于180°的弧线是为了确保可见度线有意义

特别地,给定两个数据点(ta;xa),(tb;xb)和数据点(tc;Xc),且ta < tc < tb。在CLPVG中,表示(tc;xcir)作为满足式(3)的CLPVG可见度弧tc上的点,并设置有限的可穿透可见度距离M.然后,与LPVG相同,先将每个采样时间点作为一个顶点,并按照CLPVG规则创建边缘:当且仅当不超过M个采样点(tc;xc)当ta < tc < tB满足判据xc > xcir,而其他采样点均满足xc < xcir,则(ta;xa)和(tb;xb)之间建立连接。图3给出了构建CLPVG的过程。与LPVG相比,CLPVG多了一条边,即(1,6)。

 

 (4)人工时间序列模型评价

为了证明CLPVG模型的有效性和抗噪声性能,分别用LPVG和CLPVG构建了典型周期和混沌时间序列的网络,以及它们的带噪版本。两种型号的极限穿透距离M均设为2。然后,像往常一样,我们对CLPVG和LPVG得到的可见性图的度分布进行简单的比较,验证所提出的CLPVG是否能保留不同类型时间序列的唯一信息。实验表明,两种模型都能保持时间序列的一些特征。并且我们的CLPVG具有更高的捕捉特性灵活性和更好的抗噪能力。

特别地,我们生成了以下三组时间序列:一组是周期的,另外两组是混沌的。

 

对于正弦信号和洛伦兹混沌信号,我们以0.01的采样间隔采样变量x的1000个点。对于Rossler混沌信号,我们以0.1采样间隔采样变量x的1000个点。正弦信号的初始值为0,洛伦兹混沌信号和罗斯勒混沌信号的初始值分别为(2,2,20)和(- 1,0,1)。同时,我们还对每个信号分别加入15dB、20dB、30dB和40dB高斯白噪声(WGN),考察我们的CLPVG对这些噪声的鲁棒性。正弦信号、洛伦兹混沌信号和罗斯勒混沌信号在有和没有WGN情况下的示例如图4所示。LPVG(左侧6个图)和CLPVG(右侧6个图)生成的相应可见性图如图5所示。

 

图5 由原始正弦信号的LPVG (M = 2)和CLPVG (M = 2)构造的图,(a)(c): LPVG和CLPVG (a = 1);(b)(d): 20dB WGN下正弦信号的LPVG和CLPVG (a = 1);(e)(g):原始Lorenz信号的LPVG和CLPVG (a = 10);(f)(h): 20dB洛伦兹信号的LPVG和CLPVG (a = 10);(i)(k):原始Rossler信号的LPVG和CLPVG (a = 10);(j)(l): 20dB Rossler信号的LPVG和CLPVG (a = 10)。

 

 

我们在图6中给出了三种信号的LPVG和CLPVG在有和没有WGN的情况下的度分布。由于正弦信号是单周期时间序列,因此LPVG和CLPVG的度分布都呈现出规则的尖峰,如图6 (a)-(b)所示,证明这两种方法具有区分周期时间序列的能力。此外,加入WGN前后主峰在度分布中的位置变化很小,说明LPVG和CLPVG都具有一定的抗噪能力。相比之下,加入WGN前后CLPVG的度分布甚至没有变化,说明其鲁棒性较高。

由于混沌吸引子具有不稳定的多周期轨道,由混沌信号构建的网络应该具有不规则的多峰度分布。的确,对于混沌时间序列,LPVG和CLPVG的度分布都是不规则和多模态的,如图6(c)-(f)表示节点连接的相似性存在不确定性。此外,与不带WGN的混沌信号相比,带WGN的混沌信号中LPVG和CLPVG的主峰位置和度分布形状变化不大,这意味着LPVG和CLPVG可以滤除混沌动力学中的大部分噪声。由于平均聚类系数是网络结构的另一个重要性质,我们还从有和没有WGN的混沌信号中计算了LPVG和CLPVG的平均聚类系数,如表1所示。可以明显地发现,在不同的WGN水平下,CLPVG的聚类系数变化明显小于LPVG,波动性更低。再次,我们可以说CLPVG在抗噪声方面优于LPVG,因为加入WGN前后CLPVG的度分布峰值、平均聚类系数、主峰位置都比LPVG更接近。

 最后,针对这些人工信号,我们使用图嵌入方法Graph2vec21结合机器学习方法Random Forest (RF)对长度为100的300个周期信号和600个混沌信号进行了简单的分类测试。

数据集是随机赋初始值生成的,混沌信号由300个Lorenz和300个Rossler信号组成,三种信号都包含原始信号、20dB和30dB信号,采样数相同。通过10倍交叉验证得到结果,见表2。仍然可以看出,CLPVG在识别周期信号和混沌信号方面有更好的表现 

 3.结构特征空间展开

为了捕获LPVG和CLPVG生成的可见性图的隐藏信息,我们采用SGN扩展结构特征空间,并进一步使用Graph2vec自动提取结构特征,如图7所示。

(1)SGN的结构

给定无向图G = (V;E),其中V表示节点集,E表示边集,我们将G中的每条边映射为SGN中的一个节点,如果G中对应的边共享同一终端节点,则SGN中的两个节点相互连接,从而形成一阶SGN,记为SGN。构建一阶SGN的过程如图8所示。通常,通过迭代执行上述过程可以建立更高阶的SGN,可以为分类提供更多的结构信息。然而,高阶SGN的生成非常耗时,对分类精度的提高贡献较小。因此,本文仅使用SGN。

 (2)基于Graph2vec的特征提取

在这里,我们采用Graph2vec自动提取原始可见性图和相关的SGN。Graph2vec是第一个全网络的无监督嵌入方法,便于后续机器学习算法在图数据上的应用。特别是,Graph2vec使用类似于Doc2vec22的模型来建立网络和根子图之间的关系。首先提取出根子图,并提供相应的标签到词汇表中,然后训练Skip-Gram模型,得到整个网络的表示。大量实验证明,Graph2vec在许多图分类任务中表现良好

(3)特征融合

通常,一个信号可以由多个通道组成,如图像中的RGB通道。例如,I/Q数字调制的调制信号具有信道I和信道Q。此外,可以从原始信道中建立时域的其他特性,如幅度A和相位W。一般来说,信号S可以用S=\{S_i\}_{i=1}^n表示,第i个通道用Si表示。所有通道映射的图集合用G=\{G_i\}_{i=1}^n表示,其中Gi表示从信号的第i个通道映射的图。从所有通道映射的一阶SGN集合表示为SGN=\{SGN_i^{(l)}\}_{i=1}^n,其中SGN(1) i表示从Gi中提取的一阶SGN。对于每个Gi和SGN(1) i,我们可以通过Graph2vec得到它们的特征向量如下:

 

然后,将提取的所有特征向量融合在一起,得到一个单一的特征向量,记为\Phi \in R^{2nK}:

其中||表示水平方向的融合操作。简单的融合方法使得特征向量的维数更高,因此采用主成分分析(PCA)对统一的特征向量进行降维,保留对方差贡献最大的特征。经过PCA处理,得到新的q维特征向量:

其中\Phi_{\theta } \in R^{\theta}。然后将该特征向量用作射频分类器的输入。

 4.真实世界数据集实验

我们将LPVG和CLPVG应用于无线电信号调制分类和脑电图信号癫痫检测,验证了它们的有效性。无线电信号调制分类的总体框架如图9所示,训练集和测试集与原始数据集以4:1的比例分离。对于EEG,我们只需要将可见性图的特征与其对应的SGN(1)进行融合,通过10次交叉验证得到结果。首先,我们分别用LPVG和CLPVG将时间序列转换为可见性图,将有限穿透距离M设为1。然后,应用SGN模型对各通道可见性图的结构特征空间进行扩展。最后利用特征融合和主成分分析得到统一的特征向量,然后利用射频分类器实现分类。

(1)数据集

在本文中,我们使用两个真实世界的数据集,如下所述

RADIOML 2016.10A:它是由GNU Radio生成的合成数据集,在第六届GNU年度无线电大会上首次发布。该信号数据集包含11种调制类型(BPSK, QPSK, 8PSK, 16QAM, 64QAM, BFSK, CPFSK和PAM4用于8种数字调制,以及WB-FM, AM-SSB和AMDSB用于3种模拟调制)。每个调制信号包含20种不同的信噪比(SNR)。每个信噪比包含1000个样本。每个样本有两个正交信号I=Q,每个信号包含128个采样点。

•癫痫EEG:由波恩大学癫痫学系出版。所有脑电图记录使用相同的128通道放大器系统,并使用平均共同参考值记录。记录的数据以每秒173.61个采样进行数字化,分辨率为12位,带通滤波器设置为0.53 Hz至85 Hz。完整的脑电图数据库包含五类,分别表示为A、B、C、D、e。前两类分别是健康志愿者睁眼和闭眼时的表面记录。C为对侧半球海马形成期间患者无癫痫发作间期的颅内记录。D为癫痫患者无发作间期的致痫区颅内记录。E是癫痫发作时的记录。每个类别有100个信号,每个信号的长度为4096。采用1020电极放置系统记录脑电图信号

(2)数据处理

我们首先使用峰值检测来压缩时间序列,目的是降低时间复杂度和噪声。特别地,给定一个时间序列S = {x1;x2;···xn;}超参数w表示为时间窗大小。首先,将原始时间序列S扩展到s1 = {0;0;···;x1;x2;···;xn;0;0;···;0}通过在s的开头和结尾添加w个零元素,然后截取xk的左段{xk−w;···;xk−1;xk}和右段{xk;xk+1,···;xk+w}长度为(w + 1)的Xk +w,并将其最大值分别标记为xleft-max和xright-max。最后,如果xleft-max +xright-max/2≤xk,则xk(k∈ [1;n])将被保留,否则将从序列中删除

 对于RADIOML 2016.10A,我们使用幅度A和相位W来扩展原始信号,其中A=\sqrt{I^2+Q^2}W=arctan \frac{Q}{I},如图9所示。这样就可以得到一个大小为220,000×4×128的完整数据集,供后续使用。我们进一步采用上述的峰值检测算法,窗口大小分别为3和4,进一步压缩信号。对于癫痫EEG来说,将每个4096长度的时间序列转换成一个图可能太复杂了。因此,我们将每个4096长度的信号分成4个等长1024的片段,以增加采样的数量。根据文献10,考虑分割和未分割的脑电信号时,准确率相差不大。然后,我们使用窗口大小为3的峰值检测算法进一步压缩信号。

 (3)结果与讨论

我们首先在无线电信号数据集上比较LPVG和CLPVG,并简单地将所有信道设置为a = 10。不同信噪比下的实验结果见表III。为了确保LPVG和CLPVG之间的公平比较,我们在相同的实验设置下测试了它们的分类精度。总的来说,使用CLPVG比使用LPVG可以获得更高的精度,并且对于信噪比更高的信号,这种优势更加明显。这表明CLPVG可以通过设置合适的超参数a,从信噪比较高的信号中提取出更有效的结构信息。除了对信号的所有通道设置相同的超参数外,我们还可以对不同的通道设置不同的a,提取出该通道所特有的信息,然后进行融合,从而获得更好的分类精度。但是,超参数的优化可能会很耗时,这将留给未来的扩展。我们还发现,时间窗的大小可能会对准确率产生影响,并且这种影响在不同的信噪比下会有所不同,这表明我们可以选择合适的时间窗大小来提高特定信噪比信号的分类准确率。

此外,通过SGN进一步扩展可见性图的结构特征,提高分类精度。这里只采用一阶SGN,结果如表III所示。我们发现SGN确实可以同时增强LPVG和CLPVG,即采用SGN时分类准确率明显提高。相比之下,LPVG从SGN中获益更多,表明LPVG在捕获信号潜在特征方面不如CLPVG具有代表性。通过将可见性图映射到高阶网络,例如SGN,可以在一定程度上可以克服这种缺陷。尽管如此,SGN增强的CLPVG的性能仍然优于SGN增强的LPVG,再次验证了CLPVG相对于LPVG的优越性。我们还合并了不同时间窗获得的特征向量,发现SGN增强的CLPVG整体精度可以进一步提高。

我们还比较了癫痫EEG数据集上的LPVG和CLPVG,结果如表4所示。由于该数据集中共有5个类别,因此我们设计了两个分类任务:将E从其余类别中分类出来,并将所有5个类别相互分类。对于第一个简单的任务,LPVG和CLPVG都表现得很好,达到了高于97%的准确率,在这种情况下,CLPVG略好于LPVG。对于第二个困难的任务,CLPVG的准确率明显高于LPVG,特别是在不采用SGN扩展特征空间的情况下,验证了我们的CLPVG模型的有效性。

 5.总结

可见性图为信号处理提供了一种新的方法。本文提出了一种构造可见性图的新方法,即圆形有限穿透可见性图(CLPVG)。据我们所知,这是第一次将圆系统引入到可见性图的构造中,这增加了我们的CLPVG模型的灵活性。在人工和真实时间序列数据集上的一系列实验验证了我们的CLPVG比LPVG具有更好的抗噪声能力,从而使其具有更高的时间序列分类性能。

本研究通过引入更多的圆系统以外的非线性映射机制,可能引发能见度图研究的爆发。值得注意的是,这里我们只关注于提出更灵活的可见性图模型,因此只是将我们的CLPVG与经典的LPVG进行比较,以验证其有效性。这些模型在时间序列和图之间建立了一座桥梁,通过用图来可视化时间序列,有助于更好地理解时间序列的结构,并可能启发研究人员提出更有效的信号处理图算法。未来,这种可见性图模型可以集成到深度学习框架中25,自动生成时间序列图,有望显著提高其特征提取能力。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值