SIGMOD 2021 | 时间序列相关论文一览(附原文源码)

图片

欢迎关注,专注学术论文、机器学习、人工智能、Python技巧

ACM SIGMOD,数据管理国际会议(Special Interest Group on Management Of Data.)是由美国计算机协会(ACM)数据管理专业委员会(SIGMOD)发起、在数据库领域具有最高学术地位的国际性学术会议。SIGMOD是数据库三大顶会之首,是三大顶会中唯一一个双盲评审的,其权威性毋庸置疑。

会议的目的是在全球范围内为数据库领域的研究者、开发者以及用户提供一个探索最新学术思想和研究方法、交流开发技巧、工具以及经验的平台,引导和促进数据库学科的发展。

今年SIGMOD于北京时间6月20日到25日在中国西安举办,以线上的形式进行。会议吸引了全球最顶级的数据库领域专家学者参会,发表了包括阿里云PolarDB在内的若干最新研究与工业实践成果。完整的会议内容可以访问如下链接获取:

http://2021.sigmod.org/

本文就时间序列这个话题,挖掘本次SIGMOD大会中的相关新研究新进展,发现了不少有意思的论文,包括达摩院、微软、上交、Uber、IBM等科研实体就时间序列的工业级应用提出了其新的方法。本文将对这些科研成果做初步整理,为大家呈现。

研究论文

RobustPeriod: Robust Time-Frequency Mining for Multiple Periodicity Detection

论文地址:https://dl.acm.org/doi/10.1145/3448016.3452779

论文源码:-

论文摘要:周期性检测是时间序列任务的关键步骤,包括监测和预测许多领域的指标,例如物联网应用和自动驾驶数据库管理系统。在这些应用中的许多应用中,存在多个周期性分量并且通常彼此交错。这种动态复杂的周期模式使得精确的周期检测变得困难。此外,时间序列中的其他成分,例如趋势、异常值和噪声,也对准确的周期性检测提出了额外的挑战。在本文中,我们提出了一个鲁棒且通用的多周期检测框架。我们的算法应用最大重叠离散小波变换将时间序列转换为多个时间频率尺度,以便可以隔离不同的周期分量。我们通过小波方差对它们进行排序,然后在每个尺度上通过我们提出的 Huber-periodogram 和 Huber-ACF 稳健地检测单个周期性。我们严格证明了 Huber-periodogram 的理论特性,并证明了使用 Fisher’s test on Huber-periodogram 进行周期性检测的合理性。为了进一步细化检测到的周期,我们根据 Huber-periodogram 的 Wiener-Khinchin 定理计算无偏自相关函数,以提高鲁棒性和效率。在合成和真实世界数据集上的实验表明,我们的算法在单周期和多周期检测方面都优于其他流行的算法。

演示论文

TSExplain: Surfacing Evolving Explanations for Time Series

论文地址:https://dl.acm.org/doi/10.1145/3448016.3452769

论文源码:-

论文摘要:在当今的业务决策过程中,了解对所发生事件的根本解释越来越重要。现有的解释引擎专注于解释两个给定集合之间的差异。然而,对于时间序列,解释通常会随着时间的推移而发展。因此,仅考虑两个结束时间戳将错过其间的所有解释。为了缓解这种情况,我们演示了 TSExplain,这是一个帮助用户理解任何聚合时间序列的潜在演化解释的系统。在内部,TSExplain 将解释问题建模为时间维度上的分割问题,并使用关于两组差异的现有工作作为构建块。在我们的演示中,与会者将能够轻松地以交互方式探索不断发展的解释,并可视化这些解释如何促进各种数据集的整体变化:COVID-19、S&P500、爱荷华州酒类销售。诸如“哪些州使 COVID-19 确诊病例总数在过去一年中急剧上升?”、“哪些股票导致标准普尔 500 指数在 3 月份急剧崩盘并随后迅速反弹?”等问题,TSExplain 都能很好地回答。

FeatTS: Feature-based Time Series Clustering

论文地址:https://dl.acm.org/doi/10.1145/3448016.3452757

论文源码:https://shorturl.at/noCDJ

论文摘要:聚类时间序列是涉及数据科学和数据分析管道的实际应用程序中经常出现的问题。现有的时间序列聚类算法对于特征丰富的现实世界时间序列无效,因为它们仅根据原始数据比较时间序列或使用一组固定的特征来确定相似性。在本文中,我们展示了 FeatTS,这是一种基于特征的半监督聚类框架,解决了可变长度和异构时间序列的上述问题。具体来说,FeatTS 利用通过考虑大量重要提取特征获得的时间序列的图编码。然后它采用社区检测并建立在共现矩阵上,以统一所有最佳聚类结果。我们让用户通过可视化初始数据、其图形编码和社区划分以及获得的集群来探索 FeatTS 的各个步骤。我们展示了用户如何与过程交互以选择特征以及改变输入标签和各种参数的百分比。鉴于其特性,FeatTS 优于最先进的聚类方法,并且是第一个能够消化特定领域的时间序列(例如医疗保健时间序列),同时仍然具有健壮性和可扩展性的方法。

工业论文

APAN: Asynchronous Propagation Attention Network for Real-time Temporal Graph Embedding

论文地址:https://dl.acm.org/doi/10.1145/3448016.3457564

论文源码:https://github.com/WangXuhongCN/APAN

论文摘要:为了捕获更高阶的结构特征,大多数基于 GNN 的算法学习结合 k 跳邻居信息的节点表示。由于查询 k-hop 邻居的时间复杂度很高,大多数图算法无法部署在巨大的密集时间网络中来执行毫秒级推理。这个问题极大地限制了在某些领域应用图算法的潜力,尤其是金融欺诈检测。因此,我们提出了异步传播注意网络,一种用于实时时间图嵌入的异步连续时间动态图算法。传统的图模型通常执行两个串行操作:首先是图查询,然后是模型推理。与之前的图算法不同,我们将模型推理和图计算解耦,以减轻繁重的图查询操作对模型推理速度的损害。大量实验表明,所提出的方法可以实现有竞争力的性能,同时大大提高推理速度。

Real-time Data Infrastructure at Uber

论文地址:https://dl.acm.org/doi/10.1145/3448016.3457552

论文源码:https://github.com/WangXuhongCN/APAN

论文摘要:优步的业务本质上是高度实时的。每天都在不断地从 Uber 司机、乘客、餐馆、食客等终端用户那里收集 PB 数据。有许多有价值的信息需要处理,并且必须在几秒钟内针对各种用例做出许多决策,例如客户激励、欺诈检测、机器学习模型预测。此外,越来越需要将这种能力暴露给不同的用户类别,包括工程师、数据科学家、高管和运营人员,这增加了复杂性。在本文中,我们展示了实时数据基础设施的整体架构,并确定了我们需要为架构中的每个组件不断解决的三个扩展挑战。在优步,我们在基础设施的关键领域严重依赖开源技术。在这些开源软件的基础上,我们添加了重大改进和定制,以使开源解决方案适合 Uber 的环境并弥合差距以满足 Uber 独特的规模和要求。然后,我们重点介绍了几个重要的用例,并展示了它们的实时解决方案和权衡。

AutoAI-TS:AutoAI for Time Series Forecasting

论文地址:https://dl.acm.org/doi/10.1145/3448016.3457557

论文源码:https://github.com/winedarksea/AutoTS

论文摘要:文献中提出了大量时间序列预测模型,包括传统的统计模型、机器学习模型和最近的深度学习。然而,选择正确的模型以及在给定数据上表现良好的良好参数值仍然具有挑战性。为给定数据集自动向用户提供一组良好的模型可以节省时间和精力,因为使用试错方法和各种可用模型以及参数优化可以节省时间和精力。我们提出了 AutoAI for Time Series Forecasting (AutoAI-TS),它为用户提供零配置(zero-conf)系统,以便在给定数据集的各类模型中有效地训练、优化和选择最佳预测模型。AutoAI-TS 凭借其灵活的零配置设计,自动为用户执行所有数据准备、模型创建、参数优化、训练和模型选择,并提供可立即使用的训练模型。对于给定的数据,AutoAI-TS 利用多种模型,包括经典统计模型、机器学习 (ML) 模型、统计-ML 混合模型和深度学习模型以及各种转换来创建预测管道。然后它使用建议的 T-Daub 机制对管道进行评估和排名,以选择最佳管道。该论文详细描述了 AutoAI-TS 的所有技术方面,以及针对各种用例的各种真实世界数据集的广泛基准测试。基准测试结果表明,AutoAI-TS 无需用户手动配置,自动训练和选择平均优于现有最先进时间序列预测工具包的管道。


交流学习

目前开通了技术交流群,群友超过500人,添加方式如下:

添加时最好方式为:来源+兴趣方向,方便找到志同道合的朋友

  • 方式1、发送如下图片至微信,长按识别,关注后台回复:加群;
  • 方式2、微信搜索公众号:机器学习社区,关注后台回复:加群;

在这里插入图片描述

  • 0
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
时间序列变点检测是一个重要的数据分析任务,在许多领域都有广泛的应用。基于聚类的方法是一种常见的时间序列变点检测方法之一,本文将介绍其基本原理和Matlab实现。 基本原理: 基于聚类的方法将时间序列数据划分为若干子序列,每个子序列内的数据点具有相似的特征,而不同子序列之间的数据点则具有明显的不同特征。因此,子序列之间的边界点可以看作是时间序列的变点。 具体实现: 1. 数据预处理:将原始数据进行归一化处理,以便于聚类算法的应用。 2. 聚类算法:使用K-means或者DBSCAN等聚类算法对预处理后的数据进行聚类,将时间序列划分为若干子序列。其中,K-means算法将数据点划分为K个簇,而DBSCAN算法则根据密度将数据点划分为若干簇。 3. 子序列边界点检测:对于聚类得到的每个子序列,通过比较该子序列中的数据点与簇中心点的距离,确定该子序列的边界点。边界点即为该子序列中与簇中心点距离最远的数据点。 4. 变点检测:根据子序列边界点的位置,确定时间序列的变点位置。一般来说,如果相邻两个子序列的边界点之间的距离大于某个阈值,则认为它们之间存在变点。 Matlab代码实现: 以下是一个基于K-means算法的时间序列变点检测的Matlab代码示例: ```matlab % 读取数据 data = load('data.txt'); % 数据预处理 data = (data - mean(data)) / std(data); % 聚类分析 k = 5; % 簇的个数 [idx, centers] = kmeans(data, k); % 子序列边界点检测 boundaries = zeros(k-1, 1); for i = 1:k-1 cluster1 = data(idx == i, :); cluster2 = data(idx == i+1, :); dist = pdist2(cluster1, cluster2); [~, idx1] = max(max(dist, [], 1)); [~, idx2] = max(max(dist, [], 2)); boundaries(i) = mean([idx1, idx2]); end % 变点检测 threshold = 10; % 阈值 change_points = [1; find(abs(diff(boundaries)) > threshold) + 1; size(data, 1)]; % 可视化结果 figure; plot(data); hold on; plot(change_points, data(change_points), 'ro'); ``` 以上代码中,数据存储在一个名为"data.txt"的文本文件中,每行为一个数据点。该代码将数据读取后进行预处理,然后使用K-means算法将数据划分为5个簇,再根据子序列边界点检测确定变点位置。最后,将变点位置用红色圆圈标出。 参考文献: [1] Keogh E, Chakrabarti K, Pazzani M, et al. Locally adaptive dimensionality reduction for indexing large time series databases[C]// ACM SIGMOD International Conference on Management of Data. ACM, 2001: 151-162. [2] Zhang Y, Zhang X, Sun G, et al. A clustering-based approach for change point detection in time series[J]. Neurocomputing, 2016, 198: 31-41.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值