ICLR2023_PatchTST_原文阅读笔记

最新推荐文章于 2024-09-23 23:59:58 发布

没有安全感的鸵鸟

最新推荐文章于 2024-09-23 23:59:58 发布

阅读量681

点赞数 11

文章标签：数据分析笔记深度学习神经网络机器学习 pytorch

本文链接：https://blog.csdn.net/qq_39758080/article/details/142319324

版权

这是博主阅读论文的笔记
因为看别人解析的博客时总担心会漏掉原文的内容
所以采用“原文 + 笔记”的形式
不想看原文的朋友可以忽略图片

0 摘要

这个模型是基于Transformer
主要内容
1. Patches：将输入分段成patch，再作为Transformer的输入
2. Channel-Independence：将多特征拆分为单个特征，输入模型再对结果进行拼接，而非多个特征直接输入Embedding层（Channel-mixing）
模型优点
1. 在embedding中保留局部语义信息
2. attention计算量减少
3. 对长度预测更好？
刷新了长期预测、自监督预训练、迁移学习的SOTA

在这里插入图片描述

本文两个主要的设计
1. Patching：单步的时序数据并不像句子中的一个单词那样具有语义；利用Patch能捕获完整的语音信息。
2. Channel-independence：
  - 有两种input token的设计：1）Channel-mixing，将所有特征通过embedding层映射，输入信息是混合的；2）Channel-independence，每一个input token的信息仅来自一个channel（或者说一个特征）

在这里插入图片描述

模型的优点
1. 减少时间、空间复杂度
2. 可以从更长的输入中学习（论述过程，基于Table1 case study的结果）
  1. 从上面Table 1 中可知：增大look-back window 可以减小MSE
  2. 但这个增大受限于内存与计算资源
  3. downsample（下采样）能够使得同样的tokens下的MSE更小
  4. 但是downsample会损失原始数据
  5. 所提出的Patching能够在不损失原始数据的前提下，减小MSE，Patching很有用。
3. 该模型在自监督表征学习和迁移学习上表现都很好，反正就是很厉害。

Patch在基于Transformer的模型上的应用
- 在NLP领域，BERT模型；CV领域，ViT模型上，还有BEiT、masked autoencoders上都有应用
基于Transformer的长期时序预测
- LogTrans(2019)、Informer(2021)、Autoformer(2021)、FEDformer(2022)、Pyraformer(2022)
- 之前的工作专注于减小原始attention机制的复杂度；但大部分还是用逐点的attention计算机制；
- Patch相关的工作，要么将其当做一个输入但愿，要么仅用了其背后的语义重要性？
时序表征学习：也介绍了一些工作、模型，但总感觉这块像是为了凑工作量加的实验，主要这块我也没咋接触，就没记了。