DATA-GRU 论文学习

weixin_43425490

已于 2022-12-23 15:13:16 修改

阅读量410

点赞数

分类专栏：笔记文章标签： gru 学习线性代数

于 2022-12-23 14:43:13 首次发布

本文链接：https://blog.csdn.net/weixin_43425490/article/details/128352280

版权

笔记专栏收录该内容

6 篇文章 1 订阅

订阅专栏

《DATA-GRU: Dual-Attention Time-Aware Gated Recurrent Unit for Irregular Multivariate Time Series》
DATA-GRU的基础，一部分是高斯插补，一部分是带衰减机制的GRU。作者结合高斯插补，增加了不可靠性感知注意力机制和症状感知注意力机制。

多维高斯分布

假设变量 $\mathbf{x} = [x_1, x_2]^\mathrm{T}$ ，其二元高斯分布的概率密度函数为：
$p(x_1, x_2) = \frac{1}{2\pi \sigma_1 \sigma_2 \sqrt{1 - \rho^2} } \exp(-\frac{1}{2 (1 - \rho^2)} (\frac{x_1 - \mu_1}{\sigma_1} + \frac{x_2 - \mu_2}{\sigma_2} - 2 \rho \frac{x_1 - \mu_1}{\sigma_1} \frac{x_2 - \mu_2}{\sigma_2}))$

$\rho$ 是 $x_1$ 和 $x_2$ 的相关系数，
$\rho = \frac{cov(x_1, x_2)}{\sigma_1 \sigma_2} = \frac{\mathbb{E}(x_1 x_2) - \mathbb{E}(x_1) \mathbb{E}(x_2)}{\sigma_1 \sigma_2}$

$\mathbf{x}$ 的分布可以表示为：
$\mathbf{x} \sim \mathcal{N}(\mu, \Sigma)$
其中， $\mu = \begin{bmatrix} x_1 \\ x_2 \end{bmatrix}$ 是各维度均值， $\Sigma = \begin{bmatrix} cov(x_1, x_1) & cov(x_1, x_2) \\ cov(x_2, x_1) & cov(x_2, x_2) \end{bmatrix}$ 是协方差矩阵。

二维以上的高斯联合分布在此基础上类推。

高斯过程

定义在连续域上的无限多个高维随机变量所组成的随机过程。与多元高斯分布不同的是，高斯过程需要通过均值函数和协方差函数（核函数）来确定。
首先我们可以先通过均值函数和协方差函数来确定一个高斯过程，但是目前没有任何观察值，这只是一个先验模型。一般情况下均值函数直接取 $0$ 。
当我们观测得到数据集 ( $\mathbf{x}_a, \mathbf{y}_a$ )，假设 $\mathbf{y}_a \sim \mathcal{N}(\mu_a, \Sigma_{a})$ ，是多元高斯分布, 就可以对上面给定的先验高斯过程进行修正，得到后验过程。再给定新的数据 $\mathbf{x}_b$ ，需要求得 $\mathbf{y}_b$ 。
加入 $(\mathbf{x}_b, \mathbf{y}_b)$ ，数据仍然符合多维高斯分布：
$\begin{align} \begin{bmatrix} \mathbf{y}_a \\ \mathbf{y}_b \end{bmatrix} \sim \mathcal{N}( \begin{bmatrix} \mu_a \\ \mu_b \end{bmatrix}, \begin{bmatrix} \Sigma_{aa} &\Sigma_{ab}\\ \Sigma_{ba} &\Sigma_{bb} \end{bmatrix}) \end{align}$

其中， $\mu_a, \mu_b$ 由均值函数给出（一般给 0）， $\Sigma_{aa} = K(\mathbf{x}_a, \mathbf{x}_a), \Sigma_{ab} = K(\mathbf{x}_a, \mathbf{x}_b), \Sigma_{ba} = K(\mathbf{x}_b, \mathbf{x}_a), \Sigma_{bb} = K(\mathbf{x}_b, \mathbf{x}_b)$ , $K$ 是协方差函数（核函数）。
高斯过程一般使用径向基函数RBF：
$\begin{align} K(\mathbf{x}_i, \mathbf{x}_j) = \sigma^2(-\frac{\Vert \mathbf{x}_i - \mathbf{x}_j \Vert_2^2}{2 l^2}) \end{align}$
其中 $\sigma, l$ 人为给出。

依据高斯分布的性质，(1)式的条件分布依然是一个多维高斯分布：
$\begin{align} \mathbf{y}_b | \mathbf{y}_a \sim \mathcal{N}(\mu_{b|a}, \Sigma_{b|a}) \end{align}$

直接给出后验高斯过程均值 $\mu_{b|a}$ , 协方差 $\Sigma_{b|a}$ 的求解公式（具体推导见贝叶斯优化）：
$\begin{align} \mu_{b|a} &= \Sigma_{ba} \Sigma^{-1}_{aa} (\mathbf{y}_a - \mu_a) + \mu_b \\ \Sigma_{b|a} &= \Sigma_{bb} - \Sigma_{ba} \Sigma_{aa}^{-1} \Sigma_{ab} \end{align}$

先验高斯过程（均值0，核函数为RBF）：请添加图片描述
后验高斯过程：
在这里插入图片描述

更形象的先验后验过程的解释：
在这里插入图片描述

DATA-GRU

在这里插入图片描述

1.高斯插补
$x_*$ ：需要进行插补的样本
$t_*$ ：该插补点的时间，
$X_n^k$ ：已有的样本集合
$T_n^k$ ：已有样本的时间点
$n$ ：n个点
$k$ ：k个高斯过程样本
对于缺失的值，可由高斯过程的条件分布进行插补：
在这里插入图片描述
可以看出作者选用的均值函数也是 0。协方差函数作者没有具体提到。
但是，高斯过程插补的值不一定是可信的，这一点可以由GP模型计算出来的方差来衡量。
作者也给出了衡量的方法：

$u[x_*]$ 代表样本 $x_*$ 的不可靠度。

2.Unreliability-aware attention mechanism
从数据质量的角度，作者希望根据可信度调整不同样本的权重，对数据重新进行了处理：
在这里插入图片描述
3.symptom-aware attention mechanism
根据医学知识，很多情况下是因为现实的治疗情况而导致数据缺失，缺失值可能也会包含信息，于是单独提出插补的值进行建模。
(10)式是一个滤波器，对可靠性高于0.5（方差高于0.5）的数据进行过滤，生成掩码 ${c_t^s}_{0/1}$ (下取整，对可靠度低的数据取-1，高可靠度取0)，再通过(11)式选择出可信度低的数据。
deep symptom-aware input values
(12)式利用带衰减机制的GRU，对当前时间点的样本值进行估计
deep symptom-aware attention weights
(13)式利用该点的可信度 ${\alpha_t^s}$ (论文可能有误，如果是掩码就应该是 ${c_t^s}_{0/1}$ )，计算样本权重。
在这里插入图片描述