编码器的蒸馏（Distilling）详细解释

最新推荐文章于 2024-07-21 13:59:39 发布

six.学长

最新推荐文章于 2024-07-21 13:59:39 发布

阅读量910

点赞数 17

分类专栏： informer详细流程 informer 文章标签：深度学习神经网络机器学习

本文链接：https://blog.csdn.net/m0_51200050/article/details/139794719

版权

39 篇文章 0 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

蒸馏（Distilling）步骤是在稀疏注意力块之后，用于进一步压缩和提炼特征表示。这个步骤的主要目的是减少序列长度，使得模型能够更有效地处理长时间序列数据，同时保持重要的特征信息。

作用：进一步提取和压缩特征。
具体过程：
- 卷积操作使用大小为1x3的卷积核。
- 对输入特征进行局部操作，每次卷积考虑当前时间点及其前后各一个时间点的数据，生成一个新的特征表示。
- 输出特征维度保持不变，但特征表示更加紧凑和精炼。
公式：
$\text{Conv1d}(x) = \sum_{i=-1}^{1} w_i \cdot x_{t+i}$
其中， $x$ 是输入特征， $w$ 是卷积核权重， $t$ 是时间步。

作用：引入非线性，增加模型的表达能力。
具体过程：
- 对卷积输出应用ELU（Exponential Linear Unit）激活函数。
- ELU激活函数公式：
  $\text{ELU}(x) = \begin{cases} x & \text{if } x > 0 \\ \alpha (\exp(x) - 1) & \text{if } x \leq 0 \end{cases}$
  其中， $\alpha$ 通常为1。
目的：使得输出既有线性部分又有指数衰减部分，从而更好地处理特征。

假设输入特征经过稀疏注意力块后的输出为长度为10，特征维度为512的序列。

1x3 卷积层：
- 输入特征维度： $10, 512$ 。
- 使用1x3的卷积核对每个时间点及其前后各一个时间点进行卷积操作。
- 输出特征维度： $10, 512$ 。
ELU 激活函数：
- 对卷积输出应用ELU激活函数。
- 输出特征维度保持不变： $10, 512$ 。
最大池化：
- 应用池化窗口大小为2，步幅为2的最大池化操作。
- 将序列长度减半：从10减为5。
- 输出特征维度： $5, 512$ 。

卷积操作：
- 假设时间步t的输入特征为 $x_{t-1}, x_t, x_{t+1}$ ，通过卷积操作生成新的特征值。
- 每个时间点的卷积结果保存在输出特征中。
ELU激活：
- 对每个卷积结果应用ELU激活函数，处理正负特征值。
最大池化：
- 选择每两个时间点的最大值，生成一个新的特征值，减小序列长度。
- 例如，输入序列 $x_1, x_2, x_3, x_4, x_5, x_6, x_7, x_8, x_9, x_{10}$ 通过最大池化操作后变为 $x_2, x_4, x_6, x_8, x_{10}$ 。

通过蒸馏过程，编码器能够有效地压缩和提炼输入特征，使模型在处理长时间序列数据时更加高效，同时保持重要的特征信息。这个过程包括1x3卷积、ELU激活和最大池化操作，通过局部特征提取、非线性变换和序列长度压缩，增强了模型的表现能力。

关注

专栏目录