[ICLR2019]Modeling uncertainty with hedged instance embedding

最新推荐文章于 2022-03-22 17:07:42 发布

精神boy马季

最新推荐文章于 2022-03-22 17:07:42 发布

阅读量832

点赞数 2

分类专栏：概率不确定性建模文章标签：深度学习神经网络

本文链接：https://blog.csdn.net/qq_27722471/article/details/115079550

版权

概率不确定性建模专栏收录该内容

1 篇文章 0 订阅

订阅专栏

背景

对于许多学习任务例如分类，识别，检索，聚类等等来说，实例嵌入（instance embeddings）都是进行图像表征的一种非常有效和通用的方式。在度量学习（metric learning）中会将比较的双方表示为嵌入空间中的一个点，通过计算他们之间的距离作为匹配的置信度。
但是当输入本身由于噪声干扰具有一定不确定性时，实例嵌入的单点映射无法衡量其在嵌入空间中的不确定性了。所以在这篇论文中提出了hedged instance embedding来表示嵌入空间中带不确定性的输入表征。

创新点

将由输入带来的偶然不确定性进行建模，在嵌入空间中将输入 $x$ 表达成一个随机变量 $\sim p(z \mid x) \in \mathbb{R}^{D}$
如何训练？提出了可学习的margin-contrastive loss和变分信息瓶颈原则两个loss指导训练。

方法细节

单点嵌入

margin contrastive loss:衡量嵌入的相似度，通过欧式距离来计算损失函数。同时添加了一个margin余量，使得模型对于不匹配的样本在极端情况损失大于 $M$ 下不做惩罚，避免极端情况影响训练方向。
$\mathcal{L}_{\text {con }}=\left\{\begin{array}{ll} \left\|z_{1}-z_{2}\right\|_{2}^{2} & \text { if match } \\ \max \left(M-\left\|z_{1}-z_{2}\right\|_{2}, 0\right)^{2} & \text { if non-match } \end{array}\right.$
soft contrastive loss. 将contrastive loss在概率的角度进行修改。首先计算一对点匹配的概率值：
$p\left(m \mid z_{1}, z_{2}\right):=\sigma\left(-a\left\|z_{1}-z_{2}\right\|_{2}+b\right)$
其中 $\sigma$ 代表了sigmoid函数 $\sigma(t)=\frac{1}{1+e^{-t}}$ ， $a$ 和 $b$ 都是可学习的参数，他们代替了 $M$ 的作用，作为一个作用在欧式距离上的软阈值。
有了匹配概率后，根据softmax 交叉熵损失函数来构建二值分类损失，匹配和不匹配。 $\hat{m}$ 表示指示函数，1为匹配，0为不匹配

$\mathcal{L}_{\text {softcon }}=-\log p\left(m=\hat{m} \mid z_{1}, z_{2}\right)=\left\{\begin{array}{ll} -\log p\left(m \mid z_{1}, z_{2}\right) & \text { if } \hat{m}=1 \\ -\log \left(1-p\left(m \mid z_{1}, z_{2}\right)\right) & \text { if } \hat{m}=0 \end{array}\right.$

随机嵌入损失

在HIB中，嵌入被表示成随机变量 $\sim p(z \mid x)$ ，两个输入的匹配概率可计算为：
$p\left(m \mid x_{1}, x_{2}\right)=\int p\left(m \mid z_{1}, z_{2}\right) p\left(z_{1} \mid x_{1}\right) p\left(z_{2} \mid x_{2}\right) \mathrm{d} z_{1} \mathrm{~d} z_{2}$
由于这个积分时intractable的，我们通过蒙特卡洛采样的方法来近似求解，分别从 $z_{1}^{\left(k_{1}\right)} \sim p\left(z_{1} \mid x_{1}\right)$ 和 $z_{2}^{\left(k_{2}\right)} \sim p\left(z_{2} \mid x_{2}\right)$ 中进行采样：
$p\left(m \mid x_{1}, x_{2}\right) \approx \frac{1}{K^{2}} \sum_{k_{1}=1}^{K} \sum_{k_{2}=1}^{K} p\left(m \mid z_{1}^{\left(k_{1}\right)}, z_{2}^{\left(k_{2}\right)}\right)$
single 高斯嵌入。将隐变量 $\mid x)$ 表示为多维高斯分布，通过神经网络计算分布的均值和协方差，然后通过高斯表达抽取 $K$ 个样本来近似匹配概率 $z^{(1)}, \cdots, z^{(K)} \stackrel{\mathrm{iid}}{\sim} p(z \mid x)$ 。为了有利于后向传播，使用重参数技巧： $z^{(k)}=\operatorname{diag}(\sqrt{\Sigma(x)}) \cdot \epsilon^{(k)}+\mu(x), \text { where } \epsilon^{(1)}, \cdots, \epsilon^{(K)} \stackrel{\mathrm{iid}}{\sim} N(0, I)$
混合高斯嵌入。通过多个高斯模型的混合来表达嵌入的不确定性 $\mid x)=\sum c=\mathcal{N}(x, \mu(x, c), \Sigma(x, c))$ 。同时在采样时，在每个高斯分量中都进行采样相同的样本点数目。

VIB 损失函数

**variational information bottleneck principle.**信息瓶颈准则（information bottleneck principle）是用来训练判别模型 $\mid x)$ 的。它通过最大化隐变量和预测结果之间的互信息，减少隐变量和无关输入之间互信息来减少依赖。

在概率论和信息论中，两个随机变量的互信息（mutual Information，MI）度量了两个变量之间相互依赖的程度。具体来说，对于两个随机变量，MI是在获得一个随机变量的信息之后，观察另一个随机变量所获得的“信息量”

实验

精神boy马季

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
[ICLR2019]Modeling uncertainty with hedged instance embedding

背景对于许多学习任务例如分类，识别，检索，聚类等等来说，实例嵌入（instance embeddings）都是进行图像表征的一种非常有效和通用的方式。在度量学习（metric learning）中会将比较的双方表示为嵌入空间中的一个点，通过计算他们之间的距离作为匹配的置信度。但是当输入本身由于噪声干扰具有一定不确定性时，实例嵌入的单点映射无法衡量其在嵌入空间中的不确定性了。所以在这篇论文中提出了hedged instance embedding来表示嵌入空间中带不确定性的输入表征。创新点
复制链接

扫一扫

专栏目录