论文笔记：A Time Series is Worth 64 Words: Long-term Forecasting with Transformers

最新推荐文章于 2024-12-09 16:45:06 发布

UQI-LIUWJ

最新推荐文章于 2024-12-09 16:45:06 发布

阅读量2.3k

点赞数 6

分类专栏：论文笔记文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40206371/article/details/129265122

版权

论文笔记专栏收录该内容

398 篇文章

订阅专栏

ICLR 2023

比较简单，就不分intro、model这些了

1 核心思想1：patching

给定每个时间段的长度、划分的stride，将时间序列分成若干个时间段
- 时间段之间可以有重叠，也可以没有
- 每一个时间段视为一个token

1.1 使用patching的好处

降低复杂度
- Attention 的复杂度是和 token 数量成二次方关系。
- 如果每一个 patch 代表一个 token，而不是每一个时间点代表一个 token，这显然降低了 token 的数量
保持时间序列的局部性
- 时间序列具有很强的局部性，相邻的时刻值很接近，以一个 patch 为 Attention 计算的最小单位显然更合理
方便之后的自监督表示学习
- 即 Mask 随机 patch 后重建
减少预测头的参数量
- L是输入序列长度，M 是序列个数， T是预测序列长度,D是维度，N是patch数量
- 论文中的说法是，不分patch的话，Linear Head的大小是LD×MT
  - 这里我觉得有点问题，不分patch的话，输入M*L，经过position embedding+project之后是M*LD，经过Transformer Encoder之后是M*LD，输出是M*T，那么Linear Head的大小应该是LD × T
- 分patch的话LinearHead的大小是ND × T
  - 但不管我理解的对于否，分patch的话Linear Head的大小肯定是小

2 核心思想2：channel-independence

很多基于Transformer的模型采用了 channel-mixing 的方式
- 指的是，对于多元时间序列，直接将时间序列的所有维度形成的向量投影到嵌入空间以混合多个通道的信息。
Channel-independence 意味着每个输入 token 只包含来自单个通道的信息。
- 这篇采用了的是Channel-independence
  - 将多元时间序列（维度为 M）中每一维单独进行处理
    - 即将每一维分别输入到 Transformer Backbone 中
  - 将所得预测结果再沿维度方向拼接起来。
  - 这相当于将不同维度视为独立的，但 embedding 和 Transformer 的权重在各个维度是共享的。

3 自监督表示学习

论文说明了分 patch 对 mask 重建来进行自监督学习的好处：mask 一个时间点的话，直接根据相邻点插值就可以重建，这就完全没必要学习了，而 mask 一个 patch 来重建的话则更有意义更有难度。

4 实验

博客等级

码龄8年

1646
原创

5893
点赞

1万+
收藏

3632
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 论文笔记：Hierarchical Contrast for Unsupervised Skeleton-based Action Representation Learning

下一篇：: 论文笔记：Modeling Long- and Short-Term Temporal Patterns with Deep Neural Networks

最新评论

论文笔记：LANGUAGE MODELS REPRESENT SPACE AND TIME
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文笔记：Urban Computing in the Era of Large Language Models
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文笔记：Large Language Models for Next Point-of-Interest Recommendation
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文笔记：PMoE: Progressive Mixture of Experts with Asymmetric Transformer for Continual Learning
weixincloud: 这篇文章合理性存在质疑，1. 首先他施加了任务id监督gate的概率分布，先不说他能不能学习到极端的top1的路由概率，他放开的是全部专家，这意味着全部专家都会参与最终的输出，任务边界根本不可能明确 2.他浅层使用lora 尽管他说是r=4 但是增量任务这部分绝对会退化很严重，有效对齐的合理性遭到质疑 3.唯一的比较合理的点是 1%的历史数据缓解退化。
科研笔记 KDD 2025
weixin_44899585: 今年8月份还有投稿机会吗

大家在看

最新文章

2025

目录

展开全部

收起

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UQI-LIUWJ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。