用深度变分信息瓶颈方法解释黑盒子

Perspective From Information Bottleneck Principle信息瓶颈原理(Tishby, Pereira, and Bialek 2000)通过定义我们所谓的“好的”表示,为学习监督模型提供了一个有吸引力的信息理论观点。其原理是,最优模型通过压缩表示t(称为信息瓶颈)将尽可能多的信息从输入x传递到输出y。表示t是随机定义的,最优随机映射p(t∣x)p ( t | x )p(t∣x)是通过利用马尔可夫链假设 y→x→ty \rightarrow x \rightarr
摘要由CSDN通过智能技术生成

Perspective From Information Bottleneck Principle

信息瓶颈原理(Tishby, Pereira, and Bialek 2000)通过定义我们所谓的“好的”表示,为学习监督模型提供了一个有吸引力的信息理论观点。其原理是,最优模型通过压缩表示t(称为信息瓶颈)将尽可能多的信息从输入x传递到输出y
表示t是随机定义的,最优随机映射 p ( t ∣ x ) p ( t | x ) p(tx)是通过利用马尔可夫链假设 y → x → t y \rightarrow x \rightarrow t yxt:
p ( t ∣ x ) = arg ⁡ max ⁡ p ( t ∣ x ) , p ( y ∣ t ) , p ( t ) I ( t , y ) − β I ( x , t ) − − − − − ( 1 ) p(\mathbf{t} \mid \mathbf{x})=\underset{p(\mathbf{t} \mid \mathbf{x}), p(\mathbf{y} \mid \mathbf{t}), p(\mathbf{t})}{\arg \max } \mathrm{I}(\mathbf{t}, \mathbf{y})-\beta \mathrm{I}(\mathbf{x}, \mathbf{t})-----(1) p(tx)=p(tx),p(yt),p(t)argmaxI(t,y)βI(x,t)(1)
其中 I ( . , . ) I(.,.) I(.,.)是互信息, β \beta β为拉格朗日乘数,表示压缩性 − I ( x , t ) - I ( x , t ) I(x,t)和t表示的信息量 I ( t , y ) I(t,y) I(t,y)之间的权衡。我们采用信息瓶颈原则作为寻找简明而全面的解释的标准。我们的目标是学习一个解释器,它能生成关于黑箱决策的最大信息量的解释,同时压缩给定输入。

Proposed Method

VIBI,这是一种系统无关的解释方法,它为黑盒决策系统做出的决策提供了简短而全面的解释。为了实现这一点,我们优化了以下信息瓶颈目标。
p ( z ∣ x ) = arg ⁡ smax ⁡ ( z ∣ x ) , p ( y ∣ t ) ( t , y ) − β I ( x , t ) − − − − − ( 2 ) p ( z | x ) = \operatorname { a r g } \operatorname { s m a x } _ { ( z | x ) , p ( y | t ) } ( t , y ) - \beta I ( x , t )-----(2) p(zx)=argsmax(zx),p(yt)(t,y)βI(x,t)2
I ( t , y ) I ( t , y ) I(t,y)表示为解释黑箱输出y而保留的信息的充分性, − I ( x , t ) -I(x,t) I(x,t)表示解释t的简洁性, β \beta β为权衡两者之间的拉格朗日乘数。我们的信息瓶颈目标函数(2)与(Tishby, Pereira, and Bialek 2000)的主要区别如下: 后者的目标是识别t表示的信息瓶颈的随机映射,而我们的目标是识别执行认知块实例选择的z的随机映射,并将信息瓶颈定义为z和输入x的函数。

如图1A所示,VIBI由两部分组成: 解释器和近似器,每一个都是采用深度神经网络建模。解释器选择给定实例的一组k个键的认知块,而近似器使用所选的键作为输入来模拟黑盒系统的行为。k控制z的稀疏程度。具体来说,解释器 p ( z ∣ x ; θ e ) p ( z | x ; \theta _ { e } ) p(zx;θe)从输入x到其归属分数 p j ( x ) = p ( z j ∣ x ) p _ { j } ( x ) = p ( z _ { j } | x ) pj(x)=p(zjx)的映射,其中j为第j个认知块, z j z _ { j } zj为是否选择该块的二元指标。归因得分表示每个认知块被选择的概率。为了选择前k个认知块作为解释,从类别概率 p j ( x ) = p ( z j ∣ x ) p _ { j } ( x ) = p ( z _ { j } | x ) pj(x)=p(zjx)的分类分布中抽样k-hot向量z,当 z j = 1 z _ { j }= 1 zj=1 时选择第j个认知块。具体来说,解释t的定义如下:
t i = ( x ⊙ z ) i = x i × z j t _ { i } = ( x \odot z ) _ { i } = x _ { i } \times z _ { j } ti=(xz)i=xi×zj
其中j表示一个认知块,每个认知块对应多个行特征i。采用另一种深度神经网络

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值