时间序列数据挖掘kdd2017Mining Novel Multivariate Relationships in Time Series Data Using Correlation Network

本篇论文是上一篇Tripoles的继续篇。
我之前因为Tripoles论文中的一点错误给作者发了邮件,作者发给我了他最近的论文,是Tripoles的继续篇。
Tripoles是讲述的三极时间序列相关,本篇开始研究多极相关。

Mining Novel Multivariate Relationships in Time Series Data Using Correlation Network

abstract

摘要描述了多极在时间序列数据中很有趣,发现最有趣的多极是相关网络中的负相关,由于多极系统存在的少,因此可有枚举出来。
总之:找multipoles

introduction

一、与以前工作的不同
以前的两极工作中,发现了环境地区的负相关和脑神经两域正相关。

  1. 本论文定义了multipoles多极条件:
    (1)变量显示出强的线性相关性
    (2)每个变量对线性相关性做出显著的贡献
    即,从集合中排除任何变量显著地削弱了r之间的线性相关性的强度。
  2. 定义了相关强度判定标准:
    根据标准化(零均值,单位方差)的向量的线性组合的方差来定义线性相关性。线性组合的方差越小,线性组合就越恒定,相关性越高。
  3. 定义变量对线性相关的贡献:
    贡献=移除此变量时现行相关度的减少
  4. linear gain:
    包含变量对线性依赖的最小贡献

二、multipoles多极线性相关的例子

T_0,T_1,T_2表示三个地点的交通量的时序数据,下面左列是将三个数据标准化后,下图右列第一是将三个数据线性组合后。可见线性组合后方差可以达到0.08。去掉每一个变量后,其余两个变量的线性组合最好的方差如右图下三。

根据论文中计算的到的数据:
T_0的贡献=0.33-0.08
T_1的贡献=0.58-0.08
T_2的贡献=0.74-0.03
linear gain=min{0.33,0.58,0.74}-0.03=0.25

三、提出找multipoles的方法:
通过计算变量贡献和leaner gain

  1. naive approach
    枚举出所有的集合(排列组合),判断是不是能构成多极
    这种问题等价于相关网络上的clique-enumeration problem(团列举),每个节点是一个时间序列,边的权重是两个时间序列的相关系数。
    论文提出的问题公式是基于以下两个关键的经验观测:
    一个多极的线性增益的上限取决于
    (1)多极的大小
    (2)多极中两个变量之间的最大相关强度
  2. Clique Based Multipole Search (CoMEt) approach
    (1)找promising candidates(可以限制对多极团的搜索(剪枝),希望找出强的leaner gain的团)
    (2)作者发现大多数具有高线性增益的多极子候选出现在相关网络中,要么表现为负团簇,要么表现为负等效团簇
    negative cliques(negative pairwise correlations )
    negative-equivalent cliques(可以反转一个成员或多个成员的符号变成negative cliques)
    (3)因为找promising candidates要求是更高的leaner gain,因此找promising candidates就比找所有multipoles团少的多,也就快了。但会loss completeness,也就是找的multipoles团不全
  3. CoMEtExtended
    是CoMEt的扩展版本,通过一个参数实现效率和completeness的折衷,所找的团可以不只是negative cliques和negative-equivalent cliques

四、文章的贡献

  1. 定义multipoles
  2. 提出算法找multipoles
  3. 提出评估框架
  4. 应用在两个领域:气候,脑神经

DEFINITIONS

  1. s:时间序列的集合
  2. x:时间序列的矩阵,T:一个时间序列里有T个值,k:共有k个时间序列,因此每一列表示一个时间序列
  3. ∑ \sum :x的协方差矩阵,由于数据标准化了,方差=1,因此协方差矩阵=相关系数矩阵
  1. NLC:将x乘上一个单位向量l,使用单位向量l,将x的每一行线性组合,得到新的组合向量,可以理解成将原来的k个时间序列线性组合形成的新的向量。l可理解成是一个权重向量。
  2. LVNLC:找一个l,使得xl得到的新的向量方差最小

由下图的1,2,3我们可以看出如果这几个实现序列十分的线性相关,那么线性组合后的向量就会趋近于零向量(因为标准化后的均值为0)可以参考下面的统计图z=… ,此时的方差也趋近于0,若这些时间序列都是正交的,那么均值就是1.

  1. Linear Dependence: 1-(xl得到的新的向量的方差)

5、6的目的可以参照之前的图(下图),在将多个时间序列线性加权值之后,得到的新的序列的方差小。6中,若心序列的方差越小Linear Dependence就越大,
因此Linear Dependence值越大,这几个时间序列越相关

在新的定理列出来前,我想插一个PCA的数学推导过程,里面有
(1)方差
(2)协方差
(3)协方差矩阵
(4)对角化
(5)特征值
(6)特征根
的关系。
字有些丑。。

  1. 对Linear Dependence的另一种表达形式

    推导过程:

  2. 集合S的Linear Dependence是小于或等于其超集的Linear Dependence。
    证明显而易见

  3. leaner gain
    其实化简之后和之前给出的公式一样

  4. leaner gain的简化
    由于超集的leaner dependence总是大于本集(8),因此leaner gain可以化简写成:

leaner gain的意义在于,高的leaner gain可以保证集合内的任何一个单位都很有用,缺少一个那么leaner dependence就会下降很大,可以设置一个阈值使得leaner gain要大于这个阈值才选成multipoles,这样集合中就可以避免冗余。
作者举了一个例子,若将之前的交通例子再加入一个T4,这个T4是T3的副本,但由于T4是T3的副本,去掉T4对leaner dependence的影响不大,也就是leaner gain比较小,于是T4完全没有必要加入,这样multipoles集合就避免了冗余。因此一个高的leaner gain 的阈值避免了多重共线性。

根据以上的思考,给出最终的multipoles描述和整篇论文要实现的问题

(1)multipoles定义在两个参数之上,要求multipoles的leaner dependence大于一个阈值,leaner gain也要大于一个阈值
(2)论文的目标是找数据中的最大multipoles,也就是这个multipole他不能再向里面加入其他的任何时间序列,已经是最好的了。

method

论文中提到的方法是基于一些观察得到的
首先给出了一个定义self-canceling
一个集合是self-canceling,当且仅当他的LVNLC的每个weight是非负的
不是self-canceling的集合可以通过符号反转来变成self-canceling集合
观察得到:

如果所有集合s中的self-canceling版本中的对的关系是负相关的,那么这个s的leaner gain会更高。并且如果想要这个集合的leaner gain高于一个阈值,那么这个集合中至少有一对相关系数大于一个系数
2.
因此,要想找一个集合的leaner gain值大于一个阈值,那么就可以自动忽略大于xxx的multipoles

因此得到了一个集合是promising candidate的条件

(1)里面的时间序列的个数不能多余一个值
(2)每对的相关性是负相关
negative clique定义
集合中每对的相关性是负相关
negative-equivalent clique定义
可以通过改变时间序列的符号,变成negative clique
作者给出了一个关于negative-equivalent clique的定理:

如果一个集合是negative-equivalent clique,那么他能被分成两个negative clique,并且这两个集合之间的关系都是非负的。
(证明。。我没有看,我觉得直观上就能说的清楚)

下面就到了终点部分,最重要的算法部分(其实根据前面的铺垫,我们就已经可以知道要怎么做了哈哈哈)

CoMEt

算法的方法:
(1)根据之前的两个观察,找到promising candidate
(2)判断promising candidate是不是multipole,并找到真promising candidate(去掉冗余)

其他的细节算法论文中给出,解释比较详细,在这里就不列上了。

CoMEtExtended

重新定义promising candidate,不再局限于negative clique和negative-equivalent clique,得到的结果更加完整,是efficiency和complete的折衷。
修改方法:
放宽每一对都要是负相关的限制,只要相关性低于一个阈值即可,因此形成了pseudo negative

此时就修改了CoMEt,形成了CoMEtExtended

DATA AND EXPERIMENTAL EVALUATION

依旧使用环境数据和脑神经数据
具体的一步步分析和评估我就不写出来了
列出一个他们的成果
找到了全球气候的多极时许数据相关:

总结

我看这篇论文的时间比上一篇要长一些,主要是这一篇论文的数学功底的要求比上一篇更强了。涉及到比较高级一点的线代知识。我大部分时间都用在对定理的证明上了。但是后来对方法的阅读非常的快,因为之前的一步步铺垫,及时没有给出算法,自己也差不多能够才出来。
优点:新颖,新颖,很新颖。用了简单的线性关系,就能找出相关性,和现在流行的复杂的神经网络不一样。论文的整个研究方向是值得深入研究的。
缺点:方法牵强,论文的核心算法竟然是基于对一组数据的观察。。大跌眼镜。。
希望以后作者可以在研究研究如何提出更靠谱的算法。我感觉这个方向有点意思,和以往的人工智能学习知识不同,这篇论文提出的方法真的是可以发现知识,从而给其他领域提出更好的发展借鉴,所以有时间我可以继续研究研究。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值