CTR率预测One Epoch现象 / LTSF场景质疑Transformer

最新推荐文章于 2024-09-26 17:23:00 发布

hellozhxy

最新推荐文章于 2024-09-26 17:23:00 发布

阅读量212

点赞数

文章标签：人工智能深度学习

原文链接：https://zhuanlan.zhihu.com/p/612092817

版权

本文将为大家罗列一些“不一样”的内容，希望能够对广大算法工程师们后续的实验、方法创新方向带来一丝启发。先前梳理的九河之间：用户行为建模升级-路径匹配| A Deep Behavior Path Matching Network for Click-Through Rate Prediction| 美团也能够让人耳目一新！（建议细看路径匹配和传统DIN/DIEN/SIM匹配的差异，以及路径匹配的由来）

AAAI2023 | Transformer对时序预测真的有效吗？【七问】Transformer！！

Transformers对时间序列预测有效吗? （绝对一股清流，让人耳目一新，质疑NLP算法在CTR的效果）

标题：Are Transformers Effective for Time Series Forecasting? 香港中文大学

链接: https://zhuanlan.zhihu.com/p/607812776 http://arxiv.org/abs/2205.13504代码：http://github.com/cure-lab/LTSF-Linear视频：http://www.bilibili.com/video/BV14j411A72V

摘要：最近，针对长期时间序列预测(Long-TermSeriesForcasting)任务，出现了大量基于transformer的解决方案。尽管在过去几年中表现不断增长，但我们质疑Transformer在LTSF研究方向上的有效性。具体来说，transformer可以说是提取长序列元素之间语义相关性的最成功的解决方案。然而，在时间序列建模中，我们要提取连续点的有序集合中的时间关系。虽然采用位置编码PE和标记嵌入transformer中的子序列有利于保留一些排序信息，但排列不变自注意机制的性质不可避免地导致了时间信息的丢失。为了验证我们的说法，我们引入了一组非常简单的单层线性模型Layer?，称为LTSF-Linear进行比较。在九个现实生活数据集上的实验结果表明，LTSF- linear在所有情况下都出人意料地优于现有的基于transformer的复杂LTSF模型，而且通常有很大的差距。此外，我们还进行了全面的实证研究，探讨了LTSF模型的各种设计元素对其时间关系提取能力的影响。我们希望这一惊人的发现能为LTSF任务开辟新的研究方向。我们还提倡对其他时间序列分析任务重新审视基于transformer的解决方案的有效性

Transformer们的大致流程

首先回顾下时序预测任务相关的工作脉络，其由早期的统计模型（如ARIMA）和传统机器学习模型（如GBRT）逐渐过渡到基于深度学习的模型，比如循环神经网络和时序卷积网络。再经过一系列的发展，基于Transformer的相关模型也被许多研究者所提出，比如Informer。这些基于Transformer的时序预测模型的pipeline可以归结于以下流程，即输入数据、预处理、嵌入过程、编码器、解码器再到最后的结果输出。

在当今数据驱动的世界里，时间序列无处不在。基于历史数据，时间序列预测(TSF)是一项长期存在的任务，具有广泛的应用，包括但不限于交通流量估计、能源管理、金融投资等。在过去的几十年里，TSF解决方案经历了从传统统计方法(如ARIMA[1])和机器学习技术(如GBRT[11])到基于深度学习的解决方案，如循环神经网络[15]和时域卷积网络[3,17]的进步。

近年来，基于Transformer模型的长时间序列预测（LTSF）任务相关的研究成果不断涌现。尽管在过去的几年里这些模型的性能不断提升，但也带来了一个非常直接的问题，即Transformer模型对长时序预测任务真的如此有效吗？具体来说，Transformer模型擅长提取长序列中各元素之间的语义关联。然而，在时间序列建模任务中，我们更需要关注在一个有序的连续点集合中提取时序关系。虽然其采用位置编码和使用相关标记来嵌入Transformer模型中的子序列有利于保留一些序列信息，但Self-attention机制的性质（比如排列不变性）不可避免地导致了时序信息的丢失。

Q1：能否抽取长序列中的时序信息？

A1结论：从下图可以看出，随着序列长度逐渐变长，大部分的模型性能MSE没有什么变化或者变得越来越差，这表明了其不能有效的挖掘【长时序】预测任务上的时序特征。 existing Transformer-based models’ performance deteriorates or stays stable when the look-back window size increases. In contrast, the performances of all LTSF-Linear are significantly boosted with the increase of look-back window size. Thus, existing solutions tend to overfit temporal noises instead of extracting temporal information if given a longer sequence, and the input size 96 is exactly suitable for most Transformers.

交通和电力时序预测场景各个模型 MSE结果

Q2：能从长序列预测中学到什么？

A2结论：按理来说，历史窗口中的时间动态会显著影响短期时间序列预测的精度，而长期预测仅取决于模型是否能很好地捕捉趋势和周期性。也就是说，预测范围越远，历史窗口本身的影响就越小。从实验结果来看，SOTA的Transformer模型的性能略有下降，这表明这些模型只能从相邻的时间序列中捕获相似的时间信息。 Table 3. Comparison of different input sequences under the MSE metric to explore what LTSF-Transformers depend on. From the experimental results, the performance of the SOTA Transformers drops slightly, indicating these models only capture similar temporal information from the adjacent time series sequence. Since capturing the intrinsic characteristics of the dataset generally does not require a large number of parameters, i,e. one parameter can represent the periodicity. Using too many parameters will even cause overfitting, which partially explains why LTSF- Linear performs better than Transformer-based methods.

近期行为 VS 远期行为

Q3:自注意力机制对长序列预测是否有效？

A3结论：在下图实验结果中，我们逐渐将Informer模型的组件一一卸载至线性层。其中Att.-Lineaer是指将Informer模型中的self-attention替换为线性层，Embed+Liner是指将其他复杂设计（如FFN）等去掉只剩下嵌入层和线性层，最后Linear指只有线性层。从结果可以看出Linear的实验结果最好（数值越小性能越好） First, we replace each self-attention layer by a linear layer, called Att.-Linear, since a self-attention layer can be regarded as a fully- connected layer where weights are dynamically changed. Furthermore, we discard other auxiliary designs (e.g., FFN) in Informer to leave embedding layers and linear layers, named Embed + Linear. Finally, we simplify the model to one linear layer. Surprisingly, the performance of Informer grows with the gradual simplification, indicating the unnec- essary of the self-attention scheme and other complex mod- ules at least for existing LTSF benchmarks.

Embed(wo-FFN in Informer)

Q4:能否保存时序信息？

A4结论：其中Shuf.表示将序列进行打乱使其不具备时序关系，Half-Ex.是指随机的将前半段和后半段子序列进行改变。从结果可以看出基于Transformer模型在这三种操作上的性能差不多，说明了其不太能够抽取时序信息，而在Linear模型上这三种操作性能相差很大，表明了Linear模型可以有效的捕捉序列信息。 However, in time- series forecasting, the sequence order often plays a crucial role. We argue that even with positional and temporal em- beddings, existing Transformer-based methods still suffer from temporal information loss.

是否可以提取顺序信息

Q5:不同的嵌入策略有多有效果？

A5结论：即带有位置编码和时间戳嵌入技术的模型对结果的影响有多大？从图中的结果可知，如果没有位置嵌入(wo/Pos.)，Informer的预测误差将大幅增加。随着预测长度的增加，无时间戳嵌入(wo/Temp.)将逐渐损害Informer的性能。那是因为Informer对每个标记使用单个时间步长，因此有必要在标记中引入时间信息。FEDformer和Autoformer不是在每个元素中使用单个时间步长，而是输入一系列时间戳来嵌入时间信息。因此，它们可以在没有固定位置嵌入的情况下实现相当好的性能。然而，在没有时间戳嵌入的情况下，由于全局时间信息的丢失，Autoformer的性能急剧下降。相反，由于FEDformer中提出的频率增强模块引入了时间归纳偏差，它在删除任何位置/时间戳嵌入方面受到的影响较小。

FEDformer/Autoformer/Informer

Q6:训练数据大小是限制因素吗？

A6结论：从结果中可以看出训练规模小的数据竟然实验结果更好。实验结果表明，训练数据规模并不是限制Autoformer和FEDformer性能的原因。

Q7: 性能真的是在研究过程中优先级最高的吗?

A7结论：在实践中，大多数Transformer变体会造成更多的推理时间和更多的参数。这些后续工作引入了更多额外的设计元素，使得实际成本更高。此外，常规的Transformer的内存成本实际上是可以接受的，即使对于输出长度，这削弱了设计内存高效的Transformer的重要性，至少对现有基准来说是这样。Existing LTSF- Transformers claim that the O(LL)complexity of the vanilla Transformer is unaffordable for the LTSF problem. Although they prove to be able to improve the theoretical time and memory complexity from O (L*L) to O (L), it is unclear whether 1) the actual inference time and memory cost on devices are improved, and 2) the memory issue is unacceptable and urgent for today’s GPU (e.g., an NVIDIA Titan XP here).we compare the average prac- tical efficiencies with 5 runs.

最后，本文希望这些发现为长时序预测任务开辟了新的研究方向。同时本文也主张在未来重新审视基于Transformer的研究工作在其他时序分析任务中的有效性，比如异常检测等。

Base实验介绍

一，Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting AAAI'21

研究了自注意机制中的稀疏性，对网络组件进行了改进，本文提出了Informer来成功地提高LSTF问题的预测能；和ProbSparse自注意机制来有效地取代规范的自注意。它实现了O(Llog L)时间复杂度和O(Llog L)内存依赖项对齐上的使用。xzhwe：【论文理解】AAAI2021 Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Informer

二，* FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting ICML'22 阿里达摩院

为了更好地捕捉时间序列的全局特性，我们提出了一种混合专家的频率增强分解Transformer架构来进行季节趋势分解。我们在Transformer结构中提出了傅立叶增强块和小波增强块，允许我们通过频域映射捕获时间序列中的重要结构。它们可以作为自我注意和交叉注意块的替代品。阿里达摩院最新FEDformer，长程时序预测全面超越SOTA | ICML 2022_序列_模型_时间

方法：1）采用季节趋势分解方法；2）将傅里叶分析与基于tranformer的方法相结合。

FEDformer 的主体结构（backbone）采用编码-解码器结构，内部包括四种子模块：频域学习模块（Frequency Enhanced Block）、频域注意力模块（Frequency Enhanced Attention）、周期-趋势分解模块（MOE Decomp）、前向传播模块（Feed Forward）。

FEDformer

LTSF背景：时间序列预测在众多领域中（例如电力、能源、天气、交通等）都有广泛的应用。时间序列预测问题极具挑战性，尤其是长程时间序列预测（long-term series forecasting）。在长程时间序列预测中，需要根据现有的数据对未来做出较长时段的预测。在部分场景中，模型输出的长度可以达到 1000 以上，覆盖若干周期。该问题对预测模型的精度和计算效率均有较高的要求。且时间序列往往会受到分布偏移和噪音的影响，使得预测难度大大增加。

举例说明对未来长预测

针对时间序列问题，传统的 RNN、LSTM 等 Recurrent 模型，在训练时容易受到梯度消失和爆炸的影响，尤其是面对更加长程的序列时。且这类 Recurrent 的模型无法并行计算，限制了其在大规模问题上的应用。

基于 Transformer 的时间序列预测，通过 Attention 机制捕捉 point-wise 的关系，能够在时序预测中取得较好效果，但仍存在较大不足。Informer、Autoformer 等文章对传统 Attention 机制进行了改进，在提高计算效率的同时能够取得较好的效果。传统 Transformer 为平方复杂度，Autoformer (NeurIPS’21)、Informer (AAAI’21 Best paper)、Reformer (ICLR’2020) 等模型能够达到 log-线性复杂度，而本文作者所提出的 FEDformer因使用了 low-rank approximation 而可以达到线性复杂度，并在精度上大幅超越 SOTA（state-of-the-art）结果。

各种formers

三，Autoformer: Decomposition Transformers with Auto-Correlation for Long-Term Series Forecasting 清华 NeurIPS'21

LMissher：细读好文之 Autoformer: Decomposition Transformers with Auto-Correlation for Long-Term Series Forecasting 好文

为突破上述问题，Autoformer 主要做了以下创新：

突破将序列分解作为预处理的传统方法，提出深度分解架构（Decomposition Architecture），能够从复杂时间模式中分解出可预测性更强的组分；
基于随机过程理论，提出自相关机制（Auto-Correlation），代替点向连接的注意力机制，实现序列级连接和较低复杂度，打破信息利用瓶颈。超算跑模型｜Autoformer 长时序预测

Challenge

原始时间序列中的各种趋势信息比较混乱，无法有效提取时间依赖。
Transformer的模型受限于其二次复杂度不能很好的应用于长时间时序预测。
基于Transformer的改进模型主要着力于稀疏注意力特征图 (QK^T) 来降低模型复杂度 (�(�2)→�(��))，然而这些模型仍使用以节点为最小单位进行消息汇聚，这样将造成信息的丢失，这成为了长时间时序预测的性能瓶颈。

Motivation

传统的时序分析方法decomposition可以将原始时间序列分解为更好预测的稳定内容，但是因为预测的序列未知一般只能在数据预处理阶段使用而无法提取未来序列的内在依赖。所以作者考虑将decomposition集成在模型中成为一种operation。
本文还观察到处于时序不同周期相同位置的子序列往往具有相同的趋势，所以作者考虑不再像self-attention一样从节点的角度下手而是计算sub-series间的相似度。

Contribution

作者提出了名为Autoformer的框架，其遵循Transformer的框架设计除了新添加decomposition block提取模型中隐藏状态的内在复杂时序趋势。
作者提出Auto-Correlation机制替代self-attention，其考虑sub-series间的相似度能更好的捕捉到趋势性，不仅保证了�(��)的复杂度，也防止了信息的丢失，做到了又快又好。
结果提升显著，在六个基准上的效果均取得了极大提升。

one-epoch-Towards Understanding the Overfitting Phenomenon of Deep Click-Through Rate Prediction Models

标题：点击率预测模型的过拟合现象研究 CIKM'22 缄默笔记：推荐系统(34)「CIKM'22」深度CTR模型过拟合现象分析

链接：Towards Understanding the Overfitting Phenomenon of Deep Click-Through Rate Prediction Models

应用：阿里妈妈展示广告团队 Zhao-Yu Zhang, Xiang-Rong Sheng, Bo Zheng。文章的实践指导意义巨大，能够抛开许多看起来非常fancy的方法与理论，深入到具体应用表现和结果中分析问题结果，避免算法应用的“拿来主义”，在现在算法应用领域谈概念，扯理论的浮夸风气中带来一丝清风，本着工程师的严谨精神，剖析具体的应用问题，不仅能够加深对业务的理解，也能从业务中对算法技术进行认知迭代，真正做到业务驱动，算法护航的目的。

摘要：本文将介绍阿里妈妈展示广告Rank团队对点击率(CTR)预估模型过拟合问题的研究。我们观察到CTR模型的过拟合现象非常特殊：在训练的第一个epoch结束，第二个epoch开始时，预估模型发生过拟合现象，并且在测试集上的效果急剧下降，我们称其为“one epoch现象”。为了解释该现象，我们在工业生产数据集上进行了大量实验。结果显示模型结构、模型的快速收敛（例如强优化器和较大学习率）以及特征ID的稀疏性是导致one epoch现象的关键因素。令人惊讶的是，深度模型往往在训练一个epoch后就可以达到最佳性能，这也解释了为什么许多工业推荐系统只对数据进行一次训练。我们进而提出了one epoch现象的一个可能假设，并佐以相关验证实验。

OneEpoch本质解读：

① one-epoch现象 -- CTR预估模型的过拟合现象非常特殊：模型AUC在第一个epoch内逐步提升，但是从第二个epoch开始，AUC效果突然剧烈下降，我们把这个现象叫做one-epoch现象。one-epoch现象在学术界和工业界都普遍存在。它有两个特点，(1) 恰好出现在第2个epoch开始；(2) 突然剧烈发生，导致模型精度迅速下降。

② one-epoch影响因素：A. 我们发现(有关)Embedding+MLP结构、能使模型快速收敛的优化器算法（例如学习率较大的Adam优化器）和 稀疏特征的使用（例如使用item_ID等细粒度特征）与one-epoch现象的产生都密切相关；B. 我们也验证了机器学习算法的一些核心要素，包括模型参数量、激活函数的选择、batch-size的大小、模型权重衰减（正则化项）和dropout等（无关），但实验发现他们和one-epoch现象并没有直接的关联；C. 虽然可以通过改变结论1中的影响因素来缓解one-epoch现象(有损)，但我们也发现这些方式都不可避免会带来精度损失。深度CTR模型取得最好的表现仅仅需要训练一个epoch！工业界的深度CTR模型一般都采用流式训练，并且只训练一个epoch，我们的实验结论或许为这种做法提供了合理性依据。 ③ One-epoch现象解释：训练数据的embedding与非训练数据的embedding有显著不同。在第二个epoch开始时，MLP迅速适配到已经训练过的数据embedding，进而导致了one-epoch现象。

one-epoch现象

OneEpoch相关因子：

在模型结构方面，我们发现基于DNN的深度CTR模型会产生one-epoch现象，而基于LR的CTR模型在各种超参数设置下都不会发生one-epoch现象，只表现为精度上升、平稳、再缓慢下降的传统过拟合现象。这说明one-epoch现象与不同的模型结构有着密切关系。

LR - Deep

模型优化器与one-epoch现象有紧密关联。在尝试了Adam、RMSprop、SGD等不同优化器后，我们发现Adam和RMSprop在大多数情况下都有更快的收敛速度，也更容易出现one-epoch现象。我们进一步观察到，学习率也与one-epoch现象也有一定关联。在极小的学习率下，one-epoch现象不太明显甚至完全消失，但模型的精度无法保障。简言之，能使模型快速收敛的优化器算法也更容易导致one-epoch现象。

特征相关因素：工业界CTR模型的训练数据通常具有高度稀疏性 [7]。关于特征稀疏性，我们在这里提供一个直观的理解，如果一个特征域拥有的不同ID数越多、每个ID的平均出现次数越少，那么该特征域的稀疏性就越大。例如，下表所示的生产数据集中，item_ID和history_item_IDs是两个稀疏最大的特征域。