Informer简单理解

姓蔡小朋友

已于 2024-07-20 17:22:24 修改

阅读量769

点赞数 11

分类专栏：机器学习文章标签：深度学习数据挖掘

于 2024-01-16 14:34:53 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_53881899/article/details/135622210

版权

机器学习专栏收录该内容

31 篇文章 15 订阅

订阅专栏

一、输入层Encoder改进：

1、ProbAttention算法计算权值：

原Transformer中的注意力机制时间复杂度N^2，而Informer作为实时性要求高的长时间序列预测算法必然需要提高效率，降低时间开销。

1.简化K：
- 对每个Q不再与所有K计算，而是随机选取25个K，这样减少计算量
2.简化Q：
- 每个Q与各自随机选取的25个K计算结果有25个值，选取最大值作为Q结果
- 对所有Q，选取最大的前25个Q ，因为这25个Q具有较好的区分度
- 25个Q之外的其余Q使用96个特征V的均值作为Q结果，因为这些Q区分度不大，可以看做均匀分布
得到的输出结果：
32代表patch数量。
8代表8头，即每个向量都有8个不同的Q、K，即从8个角度对序列进行计算。
25即为25个Q。
96为K的总数，虽然我们在计算Q时各自只选了25个K，但是最后Q需要与所有96个K进行内积才能融合所有K的特征。

2、Self-attention Distilling算法：

同样是在Transformer中的改进，为了降低时间开销。

Distilling算法在每层堆叠Self-attention(Transformer Encoder)时调用Distilling算法使输入序列长度减半，降低了时间开销，同样的QK的选取个数也随之减少。

二、输出层Decoder改进：

预测某天的值需要将该天之前的真实值作为已知输入
多个输出结果一口气输出，不用串行等待前一个数据的输出结果。

姓蔡小朋友

关注

11
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

姓蔡小朋友 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。