【2020顶会KDD】AutoST：面向时空预测的高效神经架构搜索

本文链接：https://blog.csdn.net/m0_52597077/article/details/132784051

【2020顶会KDD】AutoST：面向时空预测的高效神经架构搜索

标题	AutoST: Efficient Neural Architecture Search for Spatio-Temporal Prediction
作者	Ting Li, Junbo Zhang, Kainan Bao, Yuxuan Liang, Yexin Li, Yu Zheng
邮箱	{liting6259,baokainan123}@gmail.com，{msjunbozhang,yuxliang,msyuzheng}@outlook.com， yliby@connect.ust.hk
机构	JD Intelligent Cities Business Unit, JD Digits, Beijing, China，Institute of Artificial Intelligence, Southwest Jiaotong University, China， School of Computing, National University of Singapore, Singapore， Hong Kong University of Science and Technology, Hong Kong, China， School of Computer Science and Technology, Xidian University, Xi’an, China
论文	https://zhangjunbo.org/pdf/2020_KDD_AutoST.pdf

摘要

时空（ST）预测（例如人群流量预测）在智能城市应用中的城市规划、智能交通和公共安全等领域具有重要意义。最近，许多深度神经网络模型已被提出用于进行准确的预测。然而，手动设计神经网络需要大量的专业工作和ST领域知识。如何自动构建适用于城市中多样时空预测任务的通用神经网络？在本文中，我们研究了面向时空预测的神经网络架构搜索（NAS），并提出了一种高效的时空神经架构搜索方法，称为AutoST。据我们所知，搜索空间是NAS在不同应用中取得成功的重要人为因素，而当前的NAS模型集中于优化固定搜索空间中的搜索策略。因此，我们为ST领域设计了一个新颖的搜索空间，其中包括两类组件：（i）每个层中的可选卷积操作，以自动提取多范围时空依赖关系；（ii）层之间的可学习跳连接，以动态融合低级和高级ST特征。我们在包括出租车流量和人群流量在内的四个实际时空预测任务上进行了大量实验，结果显示所学习的网络架构可以显著提高代表性ST神经网络模型的性能。此外，我们提出的高效NAS方法的搜索速度比最先进的NAS方法快8-10倍，证明了AutoST的高效性和有效性。

CCS概念
• 信息系统 → 时空系统；• 计算机方法 → 自动机器学习。

总结：

背景和挑战

时空（ST）预测在智能城市应用中具有重要意义，涉及城市规划、智能交通与公共安全等。

近年来常用深度神经网络模型进行准确的时空预测，但是手动设计神经网络需要大量的专业知识和工作。

如何自动构建适用于城市中多样时空预测任务的通用神经网络。

创新点

本文研究面向时空预测的神经网络架构搜索，提出一种高效的时空神经架构搜索方法：AutoST。

痛点：目前的NAS模型集中优化固定搜索空间中的搜索策略。

可选卷积操作：对每层中的特征进行选择性卷积，自动提取多范围时空依赖关系

可学习挑连接：动态性融合低级和高级ST特征

实验

进行大量实验，覆盖四个实际时空预测任务，包括出租车流量和人群流量。实验结果表明作者设计的AutoST可显著提高ST预测模型的性能。

关键词

时空预测；神经网络架构搜索；自动机器学习

ACM参考格式：

Ting Li、Junbo Zhang、Kainan Bao、Yuxuan Liang、Yexin Li和Yu Zheng。
2020年。AutoST：面向时空预测的高效神经架构搜索。发表于第26届ACM SIGKDD知识发现与数据挖掘大会（KDD '20）论文集，2020年8月23日至27日，虚拟会议，美国。
ACM，纽约，纽约，美国，9页。https://doi.org/10.1145/3394486.3403122

1 引言

位置获取和无线通信技术的进步导致了大量的时空（ST）数据，使得许多城市中的ST预测任务（例如人群流量和交通流量）成为可能，这对于智能城市应用[34]至关重要。随着深度学习技术的发展，已经提出了许多深度时空神经网络[6, 12, 30–32]来改进ST预测的性能。然而，在不同城市的各种场景中如何找到最佳的神经网络架构仍然是一个未解决的问题，因为ST任务通常受到多个复杂因素的影响：（i）时空相关性复杂，包括区域之间的空间依赖性和时间戳之间的时间相关性；（ii）时空相关性因地区而异，例如，核心城市和小城市之间的高峰时间差异很大；（iii）时空相关性对不同任务是异质的，例如，局部空间相关性对于人群流量预测至关重要，而全局空间相关性对出租车流量预测非常重要。

专业名词：

时空相关性（Spatio-Temporal Correlation）：

时空相关性指的是数据中同时包含时间和空间维度时，不同地点和不同时刻之间的关联或依赖关系。
时空相关性用于描述数据中的时间和空间维度如何相互影响。例如，当考虑交通流量数据时，时空相关性表示不同地点在不同时间点的交通流量如何相互关联。

异质性（Heterogeneity）：

异质性表示数据中的不同地点、不同任务或不同条件之间的差异性或多样性。
在城市规划和时空数据分析中，不同地区可能具有不同的特点，例如，城市中心和郊区可能有不同的交通流量模式。这种差异性被称为异质性。

局部空间相关性（Local Spatial Correlation）：

局部空间相关性指的是数据中相对较小区域内的空间依赖性或关联性。
当数据中的某个地点的值受其附近地点的值影响，但不受远处地点的值影响时，存在局部空间相关性。这种关联通常在较小的空间范围内存在。

全局空间相关性（Global Spatial Correlation）：

全局空间相关性指的是数据中更广泛地区或整个地区的空间依赖性或关联性。
当数据中的某个地点的值受到整个地区内其他地点值的影响时，存在全局空间相关性。这种关联通常在较大的空间范围内存在。

空间依赖性（Spatial Dependence）：

空间依赖性指的是数据中不同地点之间的相互关联或依赖关系。换句话说，当一个地点的数据值受到附近地点数据值的影响时，就存在空间依赖性。
例如，在气象数据中，温度、湿度等气象因素在空间上通常具有一定的空间依赖性。如果一个地区的温度与其附近地区的温度高度相关，那么就存在空间依赖性。

时间戳（Timestamp）：

时间戳是指在时间序列数据中标识特定时间点或时刻的标签或时间标记。它通常用于记录和区分不同时间点的数据。
时间戳可以包括日期和时间信息，例如，2023年9月2日上午10点的时间戳可以表示为"2023-09-02 10:00:00"。

时间依赖性（Temporal Dependence）：

时间依赖性指的是数据中不同时间点之间的相互关联或依赖关系。当一个时间点的数据值受到前一时间点或多个时间点的数据值影响时，就存在时间依赖性。
例如，股票价格的时间序列数据通常具有时间依赖性，因为今天的价格可能受到昨天或前几天的价格变化的影响

最近，许多研究专注于设计网络来建模复杂的时空依赖关系。对于空间相关性，[20]中的作者认为，远程空间依赖性越来越重要，但是多层卷积的堆叠【32】只能捕捉邻居之间的相关性。因此，他们提出了ConvPlus组件，以捕捉区域之间的远程空间依赖性，以及一个多尺度融合网络，用于融合多级特征。此外，[8]认为不同范围内的信息揭示了不同的交通特性，例如，邻域范围表示局部依赖性，而长范围则倾向于揭示整体模式。因此，他们提出了一个多范围注意网络，以模拟图中不同空间距离依赖性。对于时间相关性，[13]采用了一系列3D卷积网络来同时提取时空特征。

多尺度融合网络（Multi-Scale Fusion Network）：
多尺度融合网络是一种神经网络结构，旨在处理多个尺度或分辨率的特征信息。这些特征信息可以来自于不同的层次或空间尺度。
这种网络结构通常包括多个子网络或分支，每个子网络专门处理一个特定尺度的特征。然后，这些子网络将它们的输出合并或融合在一起，以综合利用不同尺度的信息。
多尺度融合网络的目标是提高模型的鲁棒性和性能，特别是在处理具有多尺度特性的数据时，如图像、语音或时空数据。

融合多级特征（Feature Fusion）：
融合多级特征是指将来自不同层次或阶段的特征信息合并或整合在一起，以改善神经网络模型的性能。
在深度神经网络中，不同层次的特征表示通常包含了数据的不同抽象级别和语义信息。融合多级特征的过程可以帮助网络更好地理解和利用这些信息。
特征融合可以采用不同的方法，如加权求和、拼接、卷积等，具体取决于任务和网络架构的需求。

然而，这些方法主要集中于针对都市中特定情景建模长距离依赖性。尽管如此，我们认为最佳的神经网络架构在不同城市之间是不同的，并总结了现有方法中忽视的两个重要方面。

首先，现有方法主要关注建模长距离相关性。然而，不同城市可能对空间范围有不同的偏好。直观地说，与交通系统不发达的地区相比，核心城市应该将更远的距离范围视为邻域信息。然而，模型邻域依赖性范围的卷积核大小通常是固定的并经验性设置的。我们选择在神经网络架构搜索（NAS）中找到的最佳架构，并分析搜索过程，如图1所示。**图1(a)**表示贵阳的出租车流量，**1(b)**表示交通便捷的北京的人群流量。**图1©**显示了搜索阶段卷积的得分。具体而言，我们将所有层中的加权卷积核大小添加为每个架构在每次迭代时的总分数。我们可以观察到两个城市的演变趋势存在一些差异，北京的得分略高于贵阳。

“建模长距离相关性” 意味着试图捕捉或表征数据中不同地点（或时间点）之间较远距离的关联或依赖关系。

其次，目前的方法通常使用残差网络来聚合相邻层中的特征，未能融合低级和高级特征。众所周知，深层的卷积操作倾向于捕捉高级特征，在浅层试图提取低级特征。此外，低级和高级特征在所有情况下贡献并不相等。实际上，与核心城市相比，低级特征（指示局部信息）对于交通系统不发达的城市而言，比整体信息更有贡献。**图1(d)**显示了搜索阶段跳跃连接数量的趋势。跳跃连接数量越多，低级特征就越重要。我们可以观察到，北京的架构中跳跃连接数量明显少于贵阳，验证了我们的假设，即不同城市具有不同的架构偏好，核心城市通常更关注全局空间相关性。

在这里插入图片描述

图1：流分布（a和b）与神经网络架构（c和d）之间关系的示意图。

为了解决上述问题，我们提出了一个名为AutoST的通用网络，如图2所示。我们可以观察到，时空（ST）预测的传统过程包括三个组件：（i）初始ST特征提取器：从原始ST数据构建ST特征[32]；（ii）特征学习网络（例如[32]中的残差网络或[20]中的多尺度融合网络）：学习代表性的多级ST特征；（iii）外部融合和预测器：将外部因素与流量信息融合，然后预测未来的城市流量。我们的AutoST与传统方法的关键区别在于ST-NASNet模块，该模块可以在不同的情景下自动构建神经网络架构。我们主要在ST-NASNet中设计搜索空间，以提高网络表示能力，同时固定其他两个组件。

在这里插入图片描述

据我们所知，这是将NAS推广到ST预测问题的首个方法。我们的贡献可以总结为以下三个方面：
• 我们提出了一个名为AutoST的新型模型，用于时空预测，它引入了神经网络架构搜索技术，以动态捕捉不同范围的空间相关性，并融合多级特征。此外，AutoST面向ST数据而不是特定的应用场景，可以轻松应用于一系列深度模型。
• 我们设计了一个高效且有效的搜索空间，包括两个基本模块：i）每个层的混合卷积块，用于捕捉不同范围的空间相关性；ii）层之间的混合跳跃连接块，以动态融合多级特征。具体而言，混合卷积块由多个卷积核组成，其中更大的尺寸表示更长范围的相关性。此外，混合跳跃连接块包括连接单元和非连接单元，用于动态学习融合低级和高级特征。
• 我们在从出租车流量到人群流量的四个实际时空数据集上进行了大量实验，实验结果表明AutoST可以显著改善时空预测。此外，我们提出的时空NAS方法比现有的NAS方法更加高效。

总结：

本文设计用于神经网络架构搜索的搜索空间，旨在提高网络的效率和有效性。

作者提出的AutoST模型可以应用于多种深度模型，不是仅用于单一场景。（未来可以设计一个统一NAS框架，适用于多种场景）

作者设计高效的搜索空间，包含两个基本模块：混合卷积块，混合跳跃连接块。

专业名词解释：

混合卷积块（Mixed Convolution Block）：
混合卷积块是一个用于神经网络中的层的组成部分，用于处理时空数据。
这个模块包括多个卷积核，而不仅仅是单一尺寸的卷积核。这些卷积核具有不同的尺寸，较大的尺寸用于捕捉更长范围的空间相关性，而较小的尺寸用于处理较短范围的相关性。
通过多尺寸的卷积核，混合卷积块能够更全面地捕捉不同尺度范围内的空间依赖性，从而提高了网络的性能。

混合跳跃连接块（Mixed Skip Connection Block）：
混合跳跃连接块是用于连接网络中不同层之间的单元。
这个模块包括连接单元和非连接单元。连接单元用于建立跨层的连接，允许信息在网络中跳跃传播。非连接单元则用于动态学习如何融合低级和高级特征。
通过这种方式，混合跳跃连接块有助于网络更好地整合和利用不同层级的特征信息，从而提高了网络的性能。

2 初步知识

在本节中，我们简要介绍定义和时空预测问题陈述。为简洁起见，本文中经常使用的符号在表1中呈现。

在这里插入图片描述

定义1. 时空预测[31]：我们根据经度和纬度将城市分成 $I * J$ 个网格，其中每个网格表示一个区域。对于不同的ST应用，例如人群流量、自行车借还、出租车上下客等，一个区域中有许多类型的测量值。然后，时间t时的城市信息可以表示为 $X_t ∈ R^{C∗I∗J}$ ，其中C是测量值的数量。
定义2. 外部特征：我们将 $X_e$ 表示为包括气象和假期信息在内的外部特征。
问题陈述：给定历史观测到的城市范围内的城市流量 $\left \{ X_0，X_1，...，X_{t−1} \right \}$ 和外部特征 $X_e$ ，预测下一个时间戳 $X_t$ 中所有位置的交通流量。

总结：

时间t时刻的时间信息称为 $X_t$ ； $X_e$ 表示气象和假期信息在内的外部特征；城市范围内的城市流量 $\left \{ X_0，X_1，...，X_{t−1} \right \}$ ;

专业名词：

外部特征：

"外部特征"是指与特定任务或问题相关但不是直接从主要数据源中获得的附加信息。这些信息用于丰富数据集，改进任务的性能或准确性。

不稳重"外部特征"（ $X_e$ ）是指与城市交通流量预测问题相关的气象和假期信息。这些信息不是从城市的测量值（城市流量）中直接获取的，来自外部数据源，例如气象站的数据或假期日期的日历信息。

例如，对于城市交通流量预测，气象信息（如温度、降雨量、风速等）可能会影响交通状况。假期信息（如节假日、周末等）也可能对交通流量产生影响，人们的行为可能会在不同日期发生变化。因此，将这些外部信息作为特征（ $X_e$ ）引入预测模型可以增强数据集以支持特定任务或问题的解决，提高模型的性能和预测能力。

3 方法

如图2所示，我们提出的AutoST中的关键模块是ST-NASNet（时空神经架构搜索网络），用于自动学习时空网络架构。在本节中，我们遵循DARTS [23]中的相同的一阶梯度优化策略，该策略在连续搜索空间中执行。首先，我们描述了DARTS [23]的搜索空间，该空间广泛用于图像领域，然后介绍了专为ST预测量身定制的新型搜索空间，如图3所示。其次，我们阐述了当前ST模型中提出的NAS网络的利用。最后，我们详细说明了优化过程。

在这里插入图片描述

图3：架构比较（虚线箭头表示可学习操作，实线箭头表示固定操作）：(a) 残差网络：固定架构 (b) Darts的搜索空间：在图像领域广泛使用的搜索空间 © ST-NASNet的搜索空间：ST领域中提出的搜索空间（最佳查看颜色）。

总结：

DARTS具有一阶梯度优化策略，该策略在连续搜索空间中执行，作者依据DARTS其中的特点进行选择性参考改进优化。

专业词汇解释：

“DARTS” ：Differentiable Architecture Search"，一种用于自动搜索神经网络架构的方法。目标是通过梯度下降优化来搜索最优的神经网络结构，以满足特定任务的需求。核心思想是将网络结构的搜索问题转化为一个可微分的优化问题，从而可以使用梯度下降等优化方法进行求解。

DARTS 中的神经网络结构是由一系列基本操作和连接方式组成的，这些操作可以根据梯度信息进行权重调整，从而搜索到最佳的网络结构。DARTS 通过两个阶段的搜索来完成：

搜索阶段：在这个阶段，DARTS 通过在一个小的搜索空间中尝试不同的操作和连接方式，并使用梯度信息来更新它们的权重，以找到一个合适的网络结构。
精化阶段：在搜索阶段结束后，DARTS 会从搜索得到的网络结构中选择最佳的结构，并对其进行进一步的训练和调整，以提高性能。

DARTS 的优势在于它能够自动搜索到适用于特定任务的神经网络结构，而不需要人工设计和调整，具有高效和自动化特点。

3.1 时空搜索空间

神经网络的搜索空间可以用一个一般的DAG表示。图3（a显示了DAG视图中残差网络的体系结构，其中每个节点表示每个层的输出，箭头表示操作。在3(a)中，连接相邻两层的黑色箭头是标准卷积，内核大小为3×3，褐色箭头表示跳跃连接。与具有固定架构的神经网络不同，NAS网络由从简单到复杂的三个模块组成：（i）候选单元模块，定义了搜索单元；（ii）操作块模块，对所有可能的操作进行加权求和，使搜索空间连续；（iii）NAS网络模块，由一系列混合操作组成。我们将详细说明这三个模块。

本节主要介绍与固定神经网络架构不同的NAS具有的三个模块：候选单元模块、操作块模块、NAS网络模块。

3.1.1 候选单元。

对于城市范围的时空预测任务，通常将城市划分为网格地图，每个网格表示一个区域，这些网格组成了一个图像。我们基于以下三个考虑因素选择候选单元。首先，由于相邻区域可能会相互影响，卷积操作对于建模局部地理相关性很重要。此外，具有不同内核大小的卷积在不同范围内建模空间依赖性，因此我们应该考虑各种卷积核。其次，全局相关性对于更好的预测也很重要，因此当前方法[29, 32]通常堆叠多个卷积层以捕捉大规模的城市范围依赖性。实际上，由低级卷积捕捉的局部相关性以及由高级卷积编码的全局相关性对于城市范围的流量预测都很重要。因此，融合多级相关性的跳跃连接是必要的。最后，与图像领域中的常规CNN网络不同，ST预测任务不需要池化操作，因为池化可能导致信息丢失。

影响候选单元选择的三个因素：相邻区域、不同核大小的卷积、全局相关性。

注：ST预测任务不需要池化操作，可能会导致信息丢失

因此，我们在DARTS中删除了3×3最大池化（Max_pool_3）和3×3平均池化（Avg_pool_3）操作。此外，我们考虑了标准卷积。总之，我们选择剩下的六种操作作为基本搜索单元，并将它们分为两类，它们是：（i）卷积操作，包括3×3标准卷积（Std_conv_3）、5×5标准卷积（Std_conv_5）、3×3可分离卷积（Sep_conv_3）、5×5可分离卷积（Sep_conv_5）；（ii）跳跃连接操作，包括无连接（none）操作和连接（identity）操作。为了保持输出的形状与输入相同，我们使用步幅为1、SAME填充的卷积，并且输出的滤波器尺寸与输入相同。此外，需要注意的是，本文中的卷积单元指的是一个Relu-Conv-BatchNorm单元。

作者对DRATS进行的修改，删除了两种池化操作，保留了剩下的六种操作。

"Relu-Conv-BatchNorm单元"是一种常用的神经网络结构，用于引入非线性性质（ReLU），进行特征提取和处理（卷积层），以及加速和稳定训练（批量归一化层）。

3.1.2 操作块。

众所周知，基于梯度的搜索策略通常计算所有基本操作的输出的加权和，以避免对基本操作单元进行离散选择。操作块的示意**如图3(b)和3©所示。我们可以观察到DARTS在3(b)**中只是将八个基本单元的输出相加，作为一个操作块的最终输出，可以表示为公式(1)：

在这里插入图片描述

其中， $\overline{\mathbf{p}}_i$ 是第i层的混合操作， $S_p$ 是八个候选搜索单元的集合。f是操作函数， $θ$ 是 $f$ 的参数。然而，我们认为在每一层计算所有基本卷积操作可能会导致大量的内存消耗。具体来说，假设内部网络的层数为L，则可能的操作数为 $\frac{L∗(L−1)}{2} +L$ ，并且每个操作是从八个基本搜索单元中选择的。也就是说，总共有 $8^{L∗(L−1)/2+L}$ 种可能的网络架构。

==痛点：==通常情况下基于梯度的搜索策略需要计算所有基本操作的输出加权和，以避免基本操作单元进行离散操作。

而DARTS中八个基本搜索单元共有 $8^{L∗(L−1)/2+L}$ 种可能的网络架构，计算卷积操作需要大量内存消耗。

为了解决内存效率低下的问题，我们提议将基本单元分为两类，并定义了两种类型的混合操作，如 图3© 所示，它们是：（i）混合卷积块 $\overline{\mathbf{c}}_i$ ，表示为蓝色箭头，计算所有卷积输出的加权和；（ii）混合连接块 $\overline{\mathbf{s}}_i$ ，表示为绿色箭头，它将每一层的输出与连接概率相乘。我们将卷积单元的可训练架构权重 ${a0，a1，a2，a3}$ 和连接单元的可训练架构权重 ${a4，a5}$ 定义为控制选择候选单元可能性的架构参数 $A$ 。此外，每个卷积单元都有包括内核、偏差在内的参数，我们将它们定义为模型参数 $M$ 。对于优化算法，[11]中的作者观察到，当迭代更多的epochs时，跳跃连接的数量会增加，并分析了这是因为固有的不公平竞争造成的。因此，他们提出将操作的选择解除依赖，使每个操作都有平等的机会发展其能力。具体而言，他们将使用sigmoid激活代替softmax来生成架构权重。此外，我们将A中的值初始化为零，而不是随机数。假设 $S_c$ 和 $S_s$ 分别是卷积操作和跳跃连接的搜索单元，则混合卷积块和混合连接块的计算定义为：

在这里插入图片描述

在这个文本中，其中 $f$ 表示卷积运算，θ表示 $f$ 的参数。σ是Sigmoid激活函数。σ（ $a_c^i$ ）表示在第i层中候选单元c的权重。s是跳跃连接函数，当s为空时 $s_i，j = 0$ ，当s为恒等映射时si，j = 1是x。对于我们的模型，有L个混合卷积块和 $\frac{L∗(L−1)}{2}$ 个混合连接块，因此可能的架构数量总共为 $4^L + 2^{\frac{L∗(L−1)}{2}}$ ，从而大大减小了搜索空间。

总结：

为解决内容效率低下问题，作者将基本单元进行分组处理：混合卷积块与混合连接块。

其中控制可候选单元可能性的架构参数A：卷积单元的训练架构权重 ${a0，a1，a2，a3}$ 与连接单元的架构可训练权重 ${a4，a5}$ 。模型参数M：每个卷积单元内核、偏置在内的参数。

然后使用sigmoid激活函数代替softmax生成架构权重，并将A的初始值设为0。

最终操作块可能的架构数量由原来的 $8^{L∗(L−1)/2+L}$ 变成 $4^L + 2^{\frac{L∗(L−1)}{2}}$ ，进而减少了搜索空间。

3.1.3 NAS网络。

如上所述，考虑每个层次的所有可能操作可能导致内存效率低下。为了解决这个问题，DARTS将网络分为两部分：内部网络通过NAS学习架构，外部网络具有固定的架构，如**3(b)**所示。

然而，外部网络的固定架构可能会降低性能。为了使网络更高效，我们根据空间-时间预测的特性，从以下两个方面限制了搜索空间。首先，相邻层中只有一个卷积来捕获较大范围的空间依赖性。其次，在融合多层特征时没有外部特征变换，因此我们只需将前一层的输出添加到当前层。AutoST的架构如**图3©**所示，第l层的输出可以表示为：

在这里插入图片描述

其中oi是第i层的输出。 $\overline{\mathbf{c}}_l$ 用于在第l层生成高级特征， $\overline{\mathbf{s}}_i$ 用于融合第i层和第l层的特征。总之，所提出的网络具有以下三个优点：（i）它比固定架构更有效，因为现有网络是AutoST的子集；（ii）它使专家不再需要优化网络；（iii）它比最近的神经架构搜索方法更高效，因为搜索空间经过精心设计和限制，适用于空间-时间预测任务。

总结：

痛点问题：神经架构搜索过程中每个层次的操作可能造成内存效率低下，DARTS将网络分为内部网络和外部网络。但外部网络由于固定架构可能会降低性能。

解决方案：作者设计相邻层中只有一个卷积用于捕获时间依懒性；在融合多层特征时没有外部特征变换。

3.2 AutoST用于时空预测

我们在三个流行的时空预测模型（STResNet [32]、ST-3DNet [13]和DeepSTN [20]）上评估了AutoST，以验证我们算法的效率和通用性。我们遵循与[20, 32]相同的CPT（接近性、周期性和趋势性）范例，并以DeepSTN为例解释AutoST用于时空预测。模型如图4所示。与DeepSTN模型不同，NAS模型使用AutoST来提取特征，而不是使用多尺度融合网络。

在这里插入图片描述

对于具有L层的时空模型，架构参数A和模型参数M可以定义为：

在这里插入图片描述

其中 $n_c = 4$ 表示卷积单元的数量， $n_s = 2$ 表示连接的数量。 $θ_l^c$ 是第i层的卷积参数。此外， $θ_{c1}$ 、 $θ{c2}$ 和 $θ{fc}$ 分别是Conv1、Conv2和FCs的参数。最后，图4中的ST架构搜索网络的输出为：

在这里插入图片描述

其中 $o_L$ 是AutoST的输出， $x_e$ 表示外部因素。

FCs：全连接层（Fully Connected Layers），每个神经元与前一层的每个神经元相连接，每一个连接都有一个权重，神经元的输出依赖前一层的所有神经元输出。

3.3 算法与优化

在这里插入图片描述

NAS的训练包括两个阶段：搜索阶段和训练阶段。算法1概述了AutoST的搜索过程。在搜索阶段，我们首先将数据分为训练集和验证集，然后使用训练损失Ltrain来优化θ，θ表示常规神经网络中的可训练参数，并使用验证损失 $\zeta_{valid}$ 来优化架构参数a。θ和a的更新过程如下：

在这里插入图片描述

其中β和γ是学习率。每一层的最佳卷积和连接操作计算如下：

在这里插入图片描述

其中 $c_l^∗$ 和 $s_l^*$ 分别是第l层的最佳卷积和连接操作。在训练阶段，我们选择最佳架构来训练网络。

4 实验结果

在本节中，我们在四个实际的城市交通流数据集上进行实验，以评估网络性能。特别地，我们回答以下问题：
Q1. AutoST能否应用于广泛的空间-时间预测任务，并与最先进的网络相比稳定地提高性能？
Q2. 所提出的搜索空间是否比图像领域中的搜索空间更有效？
Q3. AutoST的设置，即层数和通道数如何影响预测结果？

4.1 实验设置

4.1.1 数据描述。

所使用数据集的简要介绍如表2所示。

在这里插入图片描述

我们将每个数据集分为训练集、验证集和测试集。在搜索阶段，我们使用验证集来学习神经网络架构。在训练阶段，我们利用训练集来训练模型，并使用验证集执行提前停止策略。具体如下：
• TaxiBJ：此数据集由[32]发布，表示北京市范围内的出租车流动情况。我们的目标是根据历史观测来预测未来的流入和流出情况。我们选择最后一个月的数据作为测试集，上一个月作为验证集，其余数据作为训练集。

TaxiBj数据集来源：J. Zhang, Y. Zheng, and D. Qi. Deep spatio-temporal residual networks for city-wide crowd flows prediction. In Proceedings ofthe Thirty-First AAAIConference
on Artificial Intelligence (AAAI-17), pages 1655–1661, 2017.

• CrowdBJ：此数据集从移动基站提取，表示北京市的人群流动情况。我们首先将北京划分为32×32的网格，然后计算每个网格中的流入和流出情况。我们选择最后十天的数据作为测试数据，上一个月作为验证数据，其余数据作为训练集。

• TaxiJN：这个数据集表示济南市的出租车流量。我们首先将济南划分为32×16的网格。然后对于每个网格，我们计算每小时的上车和下车次数。我们选择最后10天的数据作为测试数据，上一个月的倒数第2个月作为验证数据，其余数据作为训练数据。
• TaxiGY：从出租车GPS轨迹中提取，TaxiGY表示贵阳市的出租车流量。研究区域被划分为20×24的网格，我们计算每个网格中的上车和下车次数。我们选择前5个月作为训练集，接下来的两个月作为验证集，最后一个月作为测试集。

总结：

第4章节讲述实验设置，本部分对选取的实验数据集进行介绍。

4.1.2 评价指标。

我们通过均方根误差（RMSE）、平均绝对误差（MAE）和平均绝对百分比误差（MAPE）来衡量我们方法和基线的准确性：

在这里插入图片描述

其中n是值的数量， $y_i$ 是实际值， $\hat{y}_{i}$ 是预测值。在计算MAPE损失时，我们移除了 $y_i = 0$ 的样本。

4.1.3 基线算法。

我们首先将AutoST与以下城市预测的最先进方法进行比较：
• ST-ResNet [32]：它遵循CPT范例，采用后融合策略构建网络。具体而言，它首先使用三个残差网络分别建模接近性、周期性和趋势性中的空间依赖关系，然后将这三个部分的输出融合为最终输出。
• ST-3DNet [13]：它首先利用3D卷积来捕获交通数据在空间和时间维度上的相关性。与CPT范例不同，它只考虑包括接近性和趋势性在内的两个属性。此外，它利用一个残差网络来捕获接近性中的空间依赖性，使用一个3D卷积层来建模趋势性中的空间依赖性。
• DeepSTNPlus [20]：它通过在整个模型开始处利用早期融合来减少架构冗余，以整合接近性、周期性和趋势性特征，然后在模型末尾使用多尺度融合网络来融合多层特征，展示了城市范围流量预测的最先进性能。

总结：本部分主要介绍城市中最先进的预测方法ST-ResNet、ST-3DNet 、DeepSTNPlus。

专业名词解释：

CPT范例：CPT 是 “Close, Periodic, and Trend” 的缩写，它代表城市预测任务中的三个主要属性或模式：

Close（接近性）：这指的是城市中的交通流量或事件与靠近某一地点或区域相关的属性。例如，拥堵情况通常与城市中特定的交通节点或道路段相关。
Periodic（周期性）：这是指城市交通流量或事件在一定时间段内重复出现的属性。例如，早晚高峰交通拥堵是一个周期性模式，每天都会在特定时间发生。
Trend（趋势性）：这表示城市中的交通流量或事件具有长期趋势或变化的属性。例如，城市的交通流量可能会随着城市发展和人口增长而逐渐增加。

架构冗余：指的是神经网络模型中可能存在的重复、不必要或冗余的层次结构或组件。架构冗余可能导致模型的复杂性增加，但却不会显著提高性能，甚至可能降低性能。

补充：模型的鲁棒性：指的是模型对于输入数据中的不确定性、噪声、干扰或变化的能力；较强的鲁棒性表明模型面对不完美或者具有噪声的数据时仍然表现出较好的性能，不会轻易受到干扰产生错误。

模型的泛化能力：指的是模型在训练数据过程中对未见过的新数据仍然表现良好的能力。

其次，我们将我们提出的AutoST与广泛使用的NAS算法进行比较，包括：
• ENAS [15]：它采用强化学习作为搜索策略，并通过共享参数加速搜索过程，在图像领域展现出最先进的性能。
• DARTS [23]：它是将离散且不可微的搜索空间转化为连续搜索空间的第一个方法，从而允许使用基于梯度的优化策略进行更高效的搜索。

此外，DeepSTN-ne是DeepSTNPlus的一种变体，没有外部子网络，ST-ResNet+、ST-3DNet+、DeepSTN-ne+、DeepSTNPlus+分别表示针对ST-ResNet、ST-3DNet、DeepSTN-ne和DeepSTNPlus的AutoST增强算法。

本部分作者介绍广泛使用的NAS算法：ENAS、DARTS

4.1.4 超参数。

在STResNet中有三类超参数：（i）数据特征，包括接近性、周期性和趋势性的通道数；（ii）模型超参数，包括过滤器数量d和层数l；（iii）训练器，包括学习率、权重衰减、训练轮数。为了公平比较，我们首先在特征提取网络上对d进行网格搜索，范围为[16, 32, 64, 128, 256]，并对l进行网格搜索，范围为[4, 8, 12, 16]，然后选择最佳的参数设置。对于数据特征，我们将接近性的通道数设置为6，趋势性的通道数设置为2，适用于ST-3DNet；对于其他方法，我们将接近性的通道数设置为3，周期性的通道数设置为1，趋势性的通道数设置为1。此外，我们将轮数设置为300，模型优化器和架构优化器均设置为Adam。此外，我们对学习率进行网格搜索，范围为 $2e^{-3}, 1e^{-3}, 2e^{-4}, 1e^{-4}]$ ，权重衰减固定为 $3e^{-4}$ ，架构学习器的学习率设置为 $2e^{-4}$ 。

总结：

本次实验的实验设置：

数据集：四个不同的城市交通数据集：北京市的出租车流动情况（TaxiBJ）、北京市的人群流动情况（CrowdBJ）、济南市的出租车流量（TaxiJN）、贵阳市的出租车流量（TaxiGY）。
数据集划分：每个数据集都被分成了训练集、验证集和测试集。划分方式如下：
对于 TaxiBJ 数据集，最后一个月的数据用作测试集，上一个月用作验证集，其余数据用作训练集。
对于 CrowdBJ 数据集，最后十天的数据用作测试数据，上一个月用作验证数据，其余数据用作训练数据。
对于 TaxiJN 数据集，最后10天的数据用作测试数据，上一个月的倒数第2个月用作验证数据，其余数据用作训练数据。
对于 TaxiGY 数据集，前5个月的数据用作训练集，接下来的两个月用作验证集，最后一个月用作测试集。

性能评估指标：用于评估模型性能的指标包括均方根误差（RMSE）、平均绝对误差（MAE）和平均绝对百分比误差（MAPE）。
对比对象：将 ST-ResNet、ST-3DNet 、DeepSTN-ne和DeepSTNPlus与其使用Auto增强算法的ST-ResNet+、ST-3DNet+、DeepSTN-ne+、DeepSTNPlus+比较，用于评估 AutoST 在城市预测任务中的性能。
模型的超参数设置：首先在特征提取网络上对过滤器数量d进行网格搜索，范围为[16, 32, 64, 128, 256]，并对层数l进行网格搜索，范围为[4, 8, 12, 16]，选择最优参数设置。
ST-3SNet数据特征：接近性的通道数设置为6，趋势性的通道数设置为2。
ST-3DNet 、DeepSTN-ne和DeepSTNPlus数据特征：接近性的通道数设置为3，周期性的通道数设置为1，趋势性的通道数设置为1。
轮数设置为300，模型优化器和架构优化器均设置为Adam，学习率进行网格搜索其范围为 $2e^{-3}, 1e^{-3}, 2e^{-4}, 1e^{-4}]$ ，权重衰减固定为 $3e^{-4}$ ，架构学习器的学习率设置为 $2e^{-4}$ 。

专业名词：

接近性（Proximity）通道数设置为6：这意味着在STResNet模型中，用于捕获接近性方面的特征的卷积核数量为6。
周期性（Periodicity）通道数设置为1：这是指用于捕获周期性特征的卷积核数量为1。
趋势性（Trend）通道数设置为2：用于捕获趋势性特征的卷积核数量为2
学习率：进行了学习率的网格搜索，这是控制模型在训练过程中权重更新步长的重要超参数。
权重衰减：固定为 $3e^{-4}$ ，用于控制模型的正则化，防止过拟合。
训练轮数：设置为300，表示模型将被训练300个轮次。
优化器：模型优化器和架构优化器均设置为Adam。Adam是一种常用的优化算法，用于更新模型的权重以最小化损失函数。

4.2 总体性能

4.2.1 性能比较（问题1）。

在这里插入图片描述

首先我们在三个数据集上使用固定架构的三个基线模型进行性能比较，如表3所示。对于所有深度模型，我们对所有方法进行十次训练和测试，并以**“平均值±标准差”**的格式展示结果。我们有以下三个观察结果。首先，在所有三个固定网络中，DeepSTNPlus的表现最好。与ST-ResNet相比，它采用了有效的早期融合策略，不仅显著减少了结构冗余，还极大地提高了特征提取能力。此外，ST-3DNet在三个数据集上的表现均比ST-ResNet好出17.5%、7.1%和7.2%。原因是ST-3DNet使用3D卷积来共同建模ST依赖关系，能够捕捉更长的时间相关性。其次，所提出的网络性能优于专家设计的架构。具体来说，AutoST相比DeepSTNPlus提高了1.3%、1.1%和0.6%

，因为所提出的网络可以自动决定是否融合前几层的输出，这比固定的多层融合机制更有效。此外，AutoST对ST-3DNet和ST-ResNet的性能改善明显优于对DeepSTNPlus的改进，因为它们都利用残差网络来捕捉高层次的空间相关性，忽略了不同层级特征的融合。最后，AutoST对主干网络的改进幅度为2.1%、0.24%和0.28%，外部因素稍微贡献了性能的提升。

总结：

文章中黄线部分作者讲述模型对比数据提高或减少了多少，但是提升的数据是进行RMSE方面对比的，不是MAPE的数据提升，作者在文章中并没有进行交代。(或者作者想表达的是默认情况下以RMSE为标准，那么在数据中出现MAPE有什么意思)

计算ST-3DNet相对于ST-ResNet的性能提高的百分比。

RMSE：

ST-ResNet的RMSE为92.27，而ST-3DNet的RMSE为76.13。

计算ST-3DNet相对于ST-ResNet的RMSE性能提高百分比：

[RMSE提高百分比 = $\frac{RMSE(ST-ResNet) - RMSE(ST-3DNet)}{RMSE(ST-ResNet)} \times 100\%$

插入数值计算：

[RMSE提高百分比 = $\frac{92.27 - 76.13}{92.27} \times 100\% \approx 17.5\%$

MAPE：

ST-ResNet的MAPE为74.24%，而ST-3DNet的MAPE为55.51%。

计算ST-3DNet相对于ST-ResNet的MAPE性能提高百分比：

[MAPE提高百分比 = $\frac{MAPE(ST-ResNet) - MAPE(ST-3DNet)}{MAPE(ST-ResNet)} \times 100\%$

插入数值计算：

[MAPE提高百分比 = $\frac{74.24 - 55.51}{74.24} \times 100\% \approx 25.3\%$

结论：ST-3DNet相对于ST-ResNet在RMSE方面表现更好，提高了约17.5%，在MAPE方面表现更好，提高了约25.3%。

此外，我们在表4中展示了在TaxiBJ数据集上的内存占用和性能情况。我们可以观察到，在TaxiBJ数据集上，AutoST一致性地增强了现有的架构。从内存消耗的角度来看，显然DeepSTNPlus在所有基线中占用的内存最少。原因是DeepSTNPlus仅构建了一个多层融合网络来处理紧密度、周期性和趋势属性，而ST-ResNet采用了后期融合机制，需要三个特征提取网络。此外，由于梯度搜索策略需要在每一层上对所有候选单元执行卷积操作，NAS增强模型的内存消耗约为固定架构的三倍。

在这里插入图片描述

专业名词

下面指标用于评估不同模型的性能，通常在模型选择和调优过程中用于比较不同模型的准确性。不同的问题和应用场景可能更适合不同的误差度量标准。

均方根误差（RMSE）：

RMSE是衡量模型预测误差的一种度量方式，它量化了模型预测值与实际观测值之间的平均偏差的均方根。

计算RMSE的步骤是：首先计算每个数据点的预测值与实际值之间的差值，然后将这些差值的平方求和，再取平均值，最后取平方根。数学表示为：

$\sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)^2}$

其中，(n) 是数据点的数量， $y_i$ 是实际观测值， $\hat{y}_i$ 是模型的预测值。

RMSE的单位与观测值的单位相同，因此它可以用来衡量预测误差的绝对大小。

平均绝对误差（MAE）：

MAE也是衡量模型预测误差的一种度量方式，它是预测值与实际观测值之间的绝对差值的平均值。

计算MAE的步骤是：计算每个数据点的预测值与实际值之间的绝对差值，然后取这些差值的平均值。数学表示为：

$\frac{1}{n}\sum_{i=1}^{n}|y_i - \hat{y}_i|$

与RMSE不同，MAE不考虑误差的平方，因此它对大误差和小误差的权重是一样的。

MAE的单位与观测值的单位相同，也可以用来衡量预测误差的绝对大小。

平均绝对百分比误差（MAPE）：

MAPE是用于度量预测模型在百分比方面的误差，它表示预测值相对于实际值的平均百分比误差。

计算MAPE的步骤是：计算每个数据点的预测值与实际值之间的百分比误差，然后取这些百分比误差的平均值。数学表示为：

$\frac{1}{n}\sum_{i=1}^{n}\left(\frac{|y_i - \hat{y}_i|}{|y_i|}\right) \times 100\%$

MAPE通常以百分比的形式表示，它告诉您预测值相对于实际值的平均百分比误差。

MAPE对于比较不同规模的数据集中的模型性能特别有用，因为它将误差标准化为百分比。

4.2.2 复杂性比较（问题2）。

图5展示了ST-ResNet+和现有NAS模型之间的计算时间和性能比较。我们选择ST-ResNet作为主干，研究三类NAS（包括DARTS、ENAS和AutoST）增强模型的性能，并仅以TaxiBJ和TaxiGY数据集的结果为例，以说明AutoST的优越性，因为DARTS的时间消耗太大，无法在多个场景下进行评估。我们可以观察到，相比不损失准确性，我们的方法在找到最佳架构方面所花费的时间更少。具体而言，从效率角度来看，在TaxiBJ上，DARTS的耗时几乎是AutoST的10.29倍，在TaxiGY上是28.6倍。此外，从效果角度来看，在TaxiBJ上，AutoST稍逊于DARTS 。我们从以下两个方面得出结论。首先，DARTS对内部进行了约束，在每一层的网络中都有两个输入，并且每个操作都要考虑所有候选单元，这种多路径集成机制提高了性能，但大大增加了架构搜索的计算复杂性。此外，在DARTS中，外部网络的固定架构和搜索阶段所有子网络之间的参数共享导致了搜索和训练阶段之间的性能差距很大。

在这里插入图片描述

思考：

在TaxiBJ上，AutoST稍逊于DARTS，但是DARTS的值大于Auto，不是RMSE的值越小效果越好吗？

4.2.3 参数敏感性分析（问题3）。

AutoST有许多设置，包括通道数d、层数l等。为了调查AutoST的稳健性，我们在CrowdBJ和TaxiGY数据集上将AutoST增强的网络与DeepSTNPlus在d和l上进行比较。

• 为了评估d的影响，我们默认固定l = 8，并在[32, 48, 64, 128, 256]范围内变化d，结果报告在**图6(a)-6(b)**中。我们可以观察到，TaxiGY和CrowdBJ具有不同的最佳设置。具体而言，在TaxiGY数据集上，随着d的增加，预测损失略有减小，并在d = 256时达到最佳结果。由于贵阳的区域数目较北京少，并且贵阳的空间依赖关系更简单，因此d = 32已经足够有效。对于北京的结果，我们可以观察到DeepSTNPlus和我们提出的模型的性能首先显著提高，在d = 32时达到最佳，然后在增加更多通道时略微降低。原因是北京的空间相关性较复杂，因此当d = 32时，模型出现欠拟合，增加更多通道显著提高了两个模型的表示能力。此外，我们可以观察到，在TaxiGY数据集上，AutoST增强的模型始终优于DeepSTNPlus，但是当d大于128时，我们的模型表现略差于DeepSTNPlus，因为更多通道会指数性地增加模型参数，使模型难以收敛。

• 为了评估l的影响，我们默认固定d = 64，并在范围[4, 8, 12, 16]内改变l，比较结果如**图6©-6(d)**所示。我们可以观察到，DeepSTNPlus的预测准确性随着更多层次的增加而略有提高，在l = 16时达到最佳，但是AutoST增强的模型在l = 4时表现最佳，在堆叠更多卷积层时表现较差。原因是使用复杂的NAS算法堆叠太多层次来建模简单的ST相关性会导致模型难以收敛。此外，我们还可以观察到，由于所提出的AutoST更适用于建模复杂的ST依赖关系，所以在CrowdBJ数据集上，我们的模型在所有设置上都优于DeepSTNPlus。

在这里插入图片描述

总结：

作者在通道和层数上进行不同的设置进行实验，进一步解释不同的层数l和通道d对模型的影响。

4.3 案例研究

我们还评估了AutoST学习到的架构，结果如图7所示。我们可以观察到，在CrowdBJ数据集上搜索到的架构具有较少的跳跃连接。具体来说，前四层中没有跳跃连接操作，最后一层也没有与输入的连接。原因是北京具有大范围的空间相关性，可以通过堆叠多个卷积来捕捉。此外，邻域信息对于准确的预测也很重要，因此AutoST将初始邻域特征与高级特征进行融合。此外，我们还展示了在TaxiGY数据集上l = 6的搜索到的架构，其中包含许多层之间的跳跃连接，如图7(b)所示。原因是贵阳的交通情况不如北京发达，短范围的邻域依赖比全局特征更重要。

在这里插入图片描述

总结：

具有大范围的空间相关性，全局特征比较重要，其搜索架构中的跳跃连接较少。例如北京图7-a；

贵阳的交通情况不如北京发达，短范围的邻域依赖比全局特征更重要，其搜索架构中的跳跃连接较多。例如贵阳图7-b。

5 相关工作

5.1 时空预测

时空数据在现实世界中无处不在，例如交通流量和地区降雨量。从先前的观察中准确地预测它们的未来动态对于交通管理和天气预报等各种现实应用非常重要[26]。

最近，深度学习已成功应用于ST领域的各种场景。例如，卷积神经网络（CNN）的架构被广泛应用于基于栅格的数据建模。通常情况下，[18, 19, 29, 31, 32]旨在为建模或预测人群流动以及出租车需求设计特定的神经网络结构。然而，它们大多是基于多视图[29]或多任务[33]预测城市范围的交通流量，需要整合大量的专家知识。此外，一些研究人员尝试将ST预测问题在图上进行建模，并使用图卷积网络构建模型[6, 12]。然而，不同城市的数据质量存在较大差异，一些城市发布多年的数据，而其他城市只发布了几天的数据。为了解决这个问题，通常会利用迁移学习和元学习[25, 28]进行更精确的预测。

此外，由于循环神经网络（RNNs）在序列学习方面取得了成功，因此其在ST预测方面也变得流行。然而，现有的RNN模型（如LSTM [16]和GRU [9]）只考虑了序列信息，而忽略了空间相关性。为了解决这个问题，有一些研究也受到了RNN的启发，如视频预测[27]。最近的研究[17]表明，注意力机制使得RNN能够捕捉地理感知数据中的动态时空相关性。

与之前的研究不同，其基于领域知识设计复杂的网络，我们旨在自动学习适用于不同数据的神经网络架构，以提高模型的泛化能力，并将人类从设计网络中解放出来。

5.2 网络架构搜索

当前在ST预测任务中使用的架构是由人工专家手动设计的，这是耗时的。因此，越来越多的兴趣集中在自动神经网络架构搜索方法上[36]。在前几年中，NAS通常采用贝叶斯优化[2]，它首次在CIFAR-10和Penn Treebank上对抗人类专家取得了竞争性能。然而，贝叶斯优化消耗大量的计算资源（800 GPU，持续三到四周）[2]。为了解决这些问题，提出了几种加速NAS的方法[3–5, 14, 15, 22, 24]。此外，[15]将NAS形式化为强化学习问题，并通过共享参数加速搜索，将NAS的速度提高了1000倍以上。[23]的作者观察到，进化和强化学习都将架构搜索视为在离散搜索空间上的黑箱优化问题，因此他们提出将离散搜索空间松弛到连续空间，允许使用梯度下降更高效地搜索架构。

然而，[11]的研究人员认为DARTS在不公平竞争中受到了影响，因此当迭代更多时代时，跳跃连接的数量增加了。为了解决不公平竞争问题，他们建议使用sigmoid函数代替softmax，使候选单元相互依赖。此外，梯度-based搜索策略存在无效的问题，即搜索阶段与训练阶段之间存在较大的性能差距。为了解决这个问题，许多研究，如[7, 14]，提出将操作二值化以压缩模型。低资源和时间消耗激发了研究人员将NAS[1, 10, 21, 35]应用于更多领域。与大多数现有方法不同，这些方法在图像领域内在固定搜索空间中优化搜索策略，我们首次尝试为ST预测任务设计了一个适用的搜索空间。

6 结论

在本文中，我们研究了使用神经网络架构搜索方法进行时空预测的问题。我们提出了一种新颖的NAS网络，称为AutoST，其具有适用于时空预测任务的高效搜索空间，可推广到多个不同的场景。具体而言，==AutoST包括一个可选的卷积块，由多尺度卷积核组成，以在不同尺度上捕捉不同范围的特征，以及一个可训练的连接块，用于动态融合多尺度空间特征。==所提出的AutoST可以自动搜索能够处理预测中的多范围和多尺度问题的架构。此外，AutoST高效且对不同场景不敏感。我们在从人群到出租车流量预测的四个真实世界数据集上评估了AutoST，其性能优于固定架构，并且比其他搜索方法更高效。结果证明了AutoST的高效性和有效性。