HIERARCHICAL INTERPRETATIONS FOR NEURAL NET- WORK PREDICTIONS

一、前作:BEYOND WORD IMPORTANCE: CONTEXTUAL DE-COMPOSITION TO EXTRACT INTERACTIONS FROM LSTMs(Oral)

主要思路及贡献

引入了上下文分解(CD),这是一种解释算法,用于分析由标准LSTMs做出的单个预测,而不需要对底层模型进行任何更改。通过分解LSTM的输出,CD捕获单词或变量组合对LSTM最终预测的贡献。CD不仅提取了哪些词对LSTM的预测有贡献的信息,而且还提取了它们是如何组合以产生最终预测的信息。通过对LSTM的输出进行数学分解,我们能够消除句子的不同部分在每一步所作贡献的歧义

CONTEXTUAL DECOMPOSITION OF LSTMS(Lstm的上下文分解)

将lstm的输出分解为两部分贡献:一部分是有给定短语或者词产生的结果,第二部分是其他因素产生的结果,这样分解的观点是lstm是对变量相互作用建模的一种工具,反应了变量之间的相互作用。

1. lstm回顾

在这里插入图片描述

最后的状态 h t h_t ht被视作学习到的特征向量,并通过逻辑回归来进行最后的预测,返回一个各个类的概率分布

在这里插入图片描述

2. contextual decomposition of lstm(lstm的上下文分解)

给定固定的短语 x q , . . . , x r x_q,...,x_r xq,...,xr,且 1 ≤ q ≤ r ≤ T 1\leq q \leq r \leq T 1qrT,我们将每个输出即细胞状态分解为如下形式

在这里插入图片描述
其中 β t \beta _t βt表示对于 h t h_t ht仅仅由给定短语单独的贡献,而 γ t \gamma_t γt代表部分由短语无关元素的贡献,对于 c t c_t ct来说也是一样

在这里插入图片描述
这里 W β T W\beta_T WβT给出了短语对于LSTM预测贡献的定量分数,由于该分数对应于逻辑回归的输入,所以可以将其解释为标准的逻辑回归的系数

3. disambiguating interactions between gates(门之间的相互作用的消歧)

在细胞更新阶段, i t i_t it g t g_t gt仅仅由那个时间步的 x t x_t xt和前一个隐藏状态 h t − 1 = β t − 1 + γ t − 1 h_{t-1}=\beta_{t-1}+\gamma_{t-1} ht1=βt1+γt1决定,因此在计算 i t ⨀ g t i_t \bigodot g_t itgt,通常叫做门控制,由 x t x_t xt i t i_t it的贡献和由 h t h_t ht g t g_t gt的贡献相互作用,反之亦然
基于这个观点,我们假设我们有一个能够线性化门和更新的方法,以至于我们能够将这些操作写成对于他们输入贡献的线性和

在这里插入图片描述
所以在我们更新细胞状态的时候,门之间的积变成了不同元素的贡献的线性和之间的乘积,通过展开这些乘积,结果中的交叉项目被自然的解释为变量之间的相互作用
例1:交叉项指定为结果是否仅仅来自于短语

在这里插入图片描述
例2:来自于短语和其他因素之间的相互作用

在这里插入图片描述
例3:单纯来自于其他因素

在这里插入图片描述



二、后续:HIERARCHICAL INTERPRETATIONS FOR NEURAL NET-WORK PREDICTIONS(神经网络预测的层次解释)

主要概念及贡献

主要思想: agglomerative contextual decomposition (ACD) 凝聚上下文的分解,生成输入特征的层次聚类,以及每个聚类对最终预测的贡献,该层次结构被优化以识别出DNN所学习的具有预测性的特征簇(其实本质还是在于如何能够得到一组最有影响力的特征子集,从而能够提供简洁的解释)

主要贡献:

  1. 通过一般化上下文分解得到特征组的重要度分数(contextul decomposition CD)
  2. 引入了层次显著性概念,在凝聚聚类阶段将组级重要性度量CD作为连接向量,这种方法适用于所有的可以通过合适度量来计算重要性的模型

在这里插入图片描述
文章中描述的ACD是如何对“not very good ”给出“negtive”判断的,是根据构造出了层次级别的有意义的短语并给出每个短语对预测结果的贡献

具体方法

1. 一般DNNs的上下文分解(CD)重要性得分

给定一个DNNs f ( x ) f(x) f(x),可以将它的输出看做将 s o f t m a x softmax softmax作用到 g ( x ) g(x) g(x)上( g ( x ) g(x) g(x)代表一系列的逻辑单元),比如卷积,ReLU)

在这里插入图片描述
给定一组特征 { x j } j ∈ S \left \{x_j\right \}_{j \in S} {xj}jS,一般化CD算法将逻辑单元 g ( x ) g(x) g(x)分解为两个部分的和, β ( x ) \beta(x) β(x) γ ( x ) \gamma(x) γ(x),其中 β ( x ) \beta(x) β(x)是特征组 { x j } j ∈ S \left \{x_j\right \}_{j \in S} {xj}jS的重要性度量,而 γ ( x ) \gamma(x) γ(x)是不在 β ( x ) \beta(x) β(x)中的特征对 g ( x ) g(x) g(x)的贡献
g C D = ( β ( x ) , γ ( x ) ) β ( x ) + γ ( x ) = g ( x ) g^{CD}=(\beta(x),\gamma(x)) \\ \beta(x)+\gamma(x)=g(x) gCD=(β(x),γ(x))β(x)+γ(x)=g(x)
为了计算对于 g ( x ) g(x) g(x)的CD分解,对于每一个 g i ( x ) g_i(x) gi(x)定义层次CD分解, g i C D = ( β i , γ i ) g_i^{CD}=(\beta_i,\gamma_i) giCD=(βi,γi),同理 β i \beta_i βi代表重要性对于特征组 { x j } j ∈ S \left \{x_j\right \}_{j \in S} {xj}jS在第 i i i层的重要性度量,而 γ i \gamma_i γi代表剩下部分对于第 i i i层的贡献,为了得到分解 β i + γ i = g i ( x ) \beta_i+\gamma_i=g_i(x) βi+γi=gi(x),对于整个网络则可以分解为
在这里插入图片描述

  • g i g_i gi是卷积或者全连接时,层次操作包含一个权重矩阵 W W W和偏差 b b b,其中,权重矩阵是可以分别和两个分量相乘,但是偏差必须根据激活值来进行划分

在这里插入图片描述

  • g i g_i gi是max-pooling时我们定义被max-pool选择的索引或者通道为 m a x _ i d x s max\_idxs max_idxs,对于相应的通道进行分解

在这里插入图片描述

  • 如果 g i g_i gi是ReLu的话
    在这里插入图片描述

2. agglomerative contextul decomposition (ACD)(凝聚的上下文分解)

鉴于上面介绍的广义CD分数,我们现在介绍用于生成ACD解释的聚类过程。在高层次上,等价于聚类层次聚类,其中CD交互被用作连接度量来决定在每一步连接哪些集群。该过程从个体特征入手,根据CD提供的交互得分,迭代地组合它们,构建层次结构,显示的ACD解释为层次结构,以及每个节点上的CD重要性得分。

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
HIVT(Hierarchical Vector Transformer for Multi-Agent Motion Prediction)是一种用于多智能体运动预测的分层向量变换器。该模型使用了向量变换器(Vector Transformer)的层级架构,用于对多智能体的运动轨迹进行预测。 HIVT模型旨在解决多智能体之间相互影响和合作的问题。在多智能体系统中,智能体之间的运动和行为往往会相互影响,因此准确预测智能体的运动轨迹变得非常重要。传统的方法往往难以捕捉到智能体之间的复杂相互作用和外部环境的影响,而HIVT模型通过分层向量变换器的架构,可以更好地捕捉到多智能体系统中的相互作用。 HIVT模型首先使用一个全局的向量变换器来处理整个多智能体系统的运动轨迹,以捕捉全局的趋势和相互作用。然后,对于每个智能体,模型使用一个局部的向量变换器来预测其个体的运动轨迹,以考虑个体特定的动态特征和周围智能体的影响。 通过分层向量变换器的架构,HIVT模型能够更好地处理多智能体系统中的动态变化和相互作用,提高了运动轨迹预测的准确性。同时,该模型还可以应用于多个领域,如智能交通、无人机团队协作等。 总而言之,HIVT模型是一种基于分层向量变换器的多智能体运动预测方法,通过捕捉多智能体系统中的相互作用和全局趋势,提高了运动轨迹预测的准确性和适用性。该模型在多个领域具有广泛的应用前景。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值