【数据挖掘】使用可视图方法转换时间序列为复杂网络

一、引言

使用可视图方法转换时间序列为复杂网络的方法最早可以追溯到2008年Lucas Lacasa, Bartolo Luque, Fernando Ballesteros, Jordi Luque, and Juan Carlos Nun的论文《From time series to complex networks:
The visibility graph》

https://www.pnas.org/content/105/13/4972.full

本篇笔记主要围绕该篇论文介绍使用可视图方法转换时间序列为复杂网络的相关内容。

二、研究问题

使用可视图方法转换时间序列为复杂网络,也就是通过可视图直观地展示时间序列映射后的复杂网络,此时的复杂网络继承了时间序列的属性。
而该篇论文研究的核心思想,正是研究使用复杂网络的方法在多大程度上可以继承时间序列属性,从而用作表示时间序列方式的问题。
研究将时间序列划分为ordered (periodic) series有序(周期)时间序列; random series随机时间序列;fractal series分形时间序列;并提出了最适宜其转换的复杂网络结构图。

三、转换模式

(一)有序(周期)时间序列

有序时间序列可以转换为regular graphs 规则图,以论文中的数据为例,可以将下述时间序列转换为如下复杂网络
Fig.1
在这里插入图片描述

Example of a time series (20 data values) and the associated graph derived from the visibility algorithm. In the graph, every node corresponds, in the same order, to series data. The visibility rays between the data define the links connecting nodes in the graph.

Fig.1中时间序列数据的关系用landscape进行刻画,数据间的对应关系用visivility(可见性)进行描述。
那么,在本篇论文中,如何描述数据间的可见性呢?其实很简单,论文中对可见性进行如下定义

visibility line does not intersect any intermediate data height.

可以把数值的柱状图想象成一座座高楼,可见线想象成站在高楼上的一个人的视线,这里的可见性其实就是描述站在柱状图,这个高楼的楼顶,能够看到其他哪些高楼(如果视线被高楼挡住了,那就不能被看见,这时候就是不存在可见性关系)
这便是论文中所定义的可见性关系。
我们可以把时间序列数据中的时间信息转换为复杂网络的节点位置信息,时间序列中的可见性关系转换为复杂网络中节点与节点间的连线关系,这种可见性的连接关系同样刻画了时间序列数据中数值的相对大小关系。这时候,时间序列数据的两个维度t(时间)和y(数值)维度就通过复杂网络进行可视化图的展示和描述了。
为什么关系连线可以刻画数值关系呢?举个很简单的例子,有两个点A( t a t_a ta, y a y_a ya)和点B( t b t_b tb, y b y_b yb)存在可见性关系,这时候如果他们中间有其他节点C( t c t_c tc, y c y_c yc),那么此时点C的值一定满足公式 y c < y b + ( y a − y b ) ( t b − t c ) / ( t b − t a ) y_c<y_b+(y_a-y_b)(t_b-t_c)/(t_b-t_a ) yc<yb+(yayb)(tbtc)/(tbta)
关于这一算法的复现,可参考Rgarcia Herrera前辈的代码

由此观之,我们很容易发现,从时间序列数据中提取出的网络图存在如下三个性质。

We can easily check that by means of the present algorithm, the associated graph extracted from a time series is always:
Connected: each node sees at least its nearest neighbors (left and right).
Undirected: the way the algorithm is built up, there is no direction defined in the links.
Invariant under affine transformations of the series data: the visibility criterion is invariant under rescaling of both horizontal and vertical axes, and under horizontal and vertical translations .

  1. Connected
    连接关系,每个节点至少与左右两个邻近节点存在可见性关系
  2. Undirected
    无向性,此时刻画的复杂网络,节点间的路径不存在方向。

不过,需要注意的是,虽然在该网络图中没有刻画方向,但其实复杂网络同样可以实现方向的描述,可以通过入度和出度数值进行刻画,入度记作 k i k_i ki n _n n,出度记作 k o k_o ko u _u u t _t t,即可实现有向图的刻画。

  1. Invariant under affine transformations of the series data
    在时间序列的仿射变换下仿射不变。仿射变化大概是描述数据经过水平轴和垂直轴按比例缩放变化或水平方向、垂直方向的平移变化。经过仿射变化后,可见性标准仍然保持不变

在fig.1中特性3体现的不太明显,可以通过fig.2进行理解
Fig.2
在这里插入图片描述

The visibility graph of a time series remains invariant under several transformation of the time series. (a) Original time series with visibility links. (b) Translation of the data. © Vertical rescaling. (d) Horizontal rescaling. (e) Addition of a linear trend to the data. As can be seen in the bottom diagram, in all these cases the visibility graph remains invariant.

图2展示了另一种,由Zhang and Small (ZS)提出的转换方法,与图1的时间序列对象有所不同,ZS算法更关注伪周期时间序列,也就是表面上是随机的,实际上是有一定规律的时间序列数据。
上述算法,都通过可见图保留和继承了时间序列数据中的规律。

(二)随机时间序列数据

随机时间序列数据在Mapping后被刻画为一种指数随机图。
随机时间序列数据的选取,本文以“在[0,1]上的均匀分布提取的 1 0 6 10^6 106个数据值的时间序列数据”作为实验集进行展示。
Fig.3
在这里插入图片描述

Random series. (Left) First 250 values of R(t), where R is a random series of 106 data values extracted from U[0,1]. (Right) Degree distribution P(k) of the visibility graph associated with R(t) (plotted in semilog). Although the beginning of the curve approaches the result of a Poisson process, the tail is clearly exponential. This behavior is due to data with large values (rare events), which are the hubs.

用t刻画时间维度,可以得到时间t及其对应的(随机)时间取值R(t),如图3左图所示;k表示转化为复杂网络后的节点数量,P(k)表示对应度数k的出现概率,如图3右图所示。
大量随机数据往往应当呈现泊松分布,不过我们可以发现,虽然分布图的曲线起点是接近泊松分布的,但是尾部数据是出现指数分布的。这是因为尾部数据指代的是那些拥有很大度的hub节点,应当是稀有事件,在时间序列数据中是很难发生的,因此,只要尾部的形式与枢纽分布有关,在这种情况下,我们应该期望的度尾部分布是指数分布exponential,而不是泊松分布Poissonian。

(三)分形时间序列数据

分形时间序列数据fractal series在Mapping后被刻画为一种无标度图。

1.分形特性

fractal series其实就是指代那些满足分形特性的时间序列数据,具体什么样的特性是分形特性,可以参考Matrix67前辈的博文👉Matrix67: The Aha Moments
降维理解,分形就是通过扭曲图像的一小部分,生成新的形状,我们把这样的图形称作自相似图形。(如果不断迭代这样的过程,就会围成一个周长无限,但是面积却有限的图像。)
在这里插入图片描述

图片来源:Matrix67

2.无标度特性

无标度特性,是指代网络中的少数的Hub节点有极多的连接,大多数的节点只有少量的连接的特性,此时少数的Hub节点在网络中起主导作用,度分布符合幂律分布。

3.分形时间序列数据转换为无标度网络的刻画

Fig.4
在这里插入图片描述
Fig.5
在这里插入图片描述

以上内容仅为个人理解,如果有误,欢迎批评指正。

  • 9
    点赞
  • 73
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值