ʚ F【O】ɞ-CSDN博客

原创 PatchTST

对于每一个单变量序列（已经通过转换从[L,M]->[M,L]），将长为L序列切成N块，每块长度P（图1）。另外一个要提到的点是Position Embedding，论文用的是learnable的PE，用nn.init.uniform_(W_pos, -0.02, 0.02)来初始化。因为每个维度的信息是有限的，所以没有那么容易拟合。不同Channel的数据有不同的规律，如果直接mix后投射到一个空间上会不太好学。如果一个channel的数据有噪声，也容易影响所有channel，分开则没有这样的影响。

2023-12-11 06:30:00 711 2

原创 TimesNet

本文重点研究时间变化建模，为了解决一维时间序列在表示能力方面的局限性，我们将一维时间序列转换为一组基于多个周期的二维张量，将时间变化分析扩展到二维空间，使得2D变化很容易被2D核建模。

2023-11-22 10:35:55 1067

原创 Autoformer

编码器部分的输入是过去的 I 个时间步长 Xen [I/2,d] ，Autoformer 解码器的输入同时包含季节性部分 Xdes [I/2+O,d]和趋势周期部分 Xdet [I/2+O,d]。基于Transformer的时间序列预测模型，通过自注意力机制（self-attention）来捕捉时刻间的依赖，在时序预测上取得了一些进展。输入序列X[L,d]，L为序列长度，d为每一个时间步的维度。Xt[L,d]，Xs[L,d]分别表示季节部分和提取的趋势周期部分，这是SeriesDecomp的内部实现模块。

2023-11-10 16:33:40 122 1

原创 ConvNeXt网络

在某种程度上，我们的观察结果令人惊讶，而我们的 ConvNeXt 模型本身并不是全新的——在过去十年中，许多设计选择都是单独检查的，但不是集体的。在高层次上，ResNeXt 的指导原则是“使用更多的组，扩展宽度”。Fewer activation functions：Transformer 和 ResNet 块之间的一个小区别是 Transformer 的激活函数更少，如图 4 所示，我们从残差块中删除了所有 GELU 层，除了两个 1 ⇥ 1 层之间的层，复制了 Transformer 块的样式。

2023-11-03 20:21:42 74

原创 VIT讲解

在原论文中，作者说参考BERT，在刚刚得到的一堆tokens中插入一个专门用于分类的[class]token，这个[class] token是一个可训练的参数，数据格式和其他token一样都是一个向量，就是一个长度为768的向量，与之前从图片中生成的tokens拼接在一起，Cat([1, 768], [196, 768]) -> [197, 768]。在本文中我们展示了对CNN的这种依赖是不必要的，直接应用于图像块序列的纯Transformer可以在图像分类任务中表现出色。（感官输入）的选择倾向。

2023-10-30 21:21:02 130 1

Swin transformer

2023-10-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人