深度学习中的互信息：无监督提取特征

最新推荐文章于 2025-03-29 20:07:00 发布

PaperWeekly

最新推荐文章于 2025-03-29 20:07:00 发布

阅读量7.4k

点赞数 14

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/83020949

版权

本文探讨了互信息在深度学习中的应用，特别是在无监督学习中用于特征提取。作者指出，传统的自编码器和变分自编码器的目标是重构原始数据，但互信息提供了衡量特征独特性的新视角。互信息最大化可以帮助提取样本的独特信息，而不是仅仅追求重构。文章介绍了如何通过优化互信息来改进模型，并提出了一种新的端到端方法，结合了互信息和先验分布的约束。此外，作者还讨论了局部互信息的概念，以及如何将其应用于图像的各个局部，从而提高编码质量。通过实例和实验结果，展示了该方法在图像相似性搜索中的潜力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

640

作者丨苏剑林

单位丨广州火焰信息科技有限公司

研究方向丨NLP，神经网络

个人主页丨kexue.fm

对于 NLP 来说，互信息是一个非常重要的指标，它衡量了两个东西的本质相关性。笔者曾多次讨论过互信息，本人也对各种利用互信息的文章颇感兴趣。前段时间看到了最近提出来的 Deep INFOMAX 模型 [1]，用最大化互信息来对图像做无监督学习，自然也颇感兴趣，研读了一番，就得到了本文。

本文整体思路源于 Deep INFOMAX 的原始论文，但并没有照搬原始模型，而是按照这自己的想法改动了模型（主要是先验分布部分），并且会在相应的位置进行注明。

640

▲ 随机采样的KNN样本

我们要做什么

自编码器

特征提取是无监督学习中很重要且很基本的一项任务，常见形式是训练一个编码器将原始数据集编码为一个固定长度的向量。自然地，我们对这个编码器的基本要求是：保留原始数据的（尽可能多的）重要信息。

我们怎么知道编码向量保留了重要信息呢？一个很自然的想法是这个编码向量应该也要能还原出原始图片出来，所以我们还训练一个解码器，试图重构原图片，最后的 loss 就是原始图片和重构图片的 mse。这导致了标准的自编码器的设计。后来，我们还希望编码向量的分布尽量能接近高斯分布，这就导致了变分自编码器。

重构的思考

然而，值得思考的是“重构”这个要求是否合理？

首先，我们可以发现通过低维编码重构原图的结果通常是很模糊的，这可以解释为损失函数 mse 要求“逐像素”重建过于苛刻。又或者可以理解为，对于图像重构事实上我们并没有非常适合的 loss 可以选用，最理想的方法是用对抗网络训练一个判别器出来，但是这会进一步增加任务难度。

其次，一个很有趣的事实是：我们大多数人能分辨出很多真假币，但如果要我们画一张百元大钞出来，我相信基本上画得一点都不像。这表明，对于真假币识别这个任务，可以设想我们有了一堆真假币供学习，我们能从中提取很丰富的特征，但是这些特征并不足以重构原图，它只能让我们分辨出这堆纸币的差异。也就是说，对于数据集和任务来说，合理的、充分的特征并不一定能完成图像重构。