![bb6dc653846c8704dea45d9f67a34daf.png](https://i-blog.csdnimg.cn/blog_migrate/0607f737ea231fd9e36477607d1c443c.jpeg)
作者 | 崔书豪
编辑 | 丛 末
本文首发于知乎
只需要一行代码,立刻提升迁移性能。
这就是我们出的新方法:批量核范数最大化(Batch Nuclear-norm Maximization)。
![33501cda0b8156c7b68966b02d4d6f53.png](https://i-blog.csdnimg.cn/blog_migrate/cdd838f77b5035991f27c315746edc3a.jpeg)
论文原址:https://arxiv.org/pdf/2003.12237.pdf
开源地址:https://github.com/cuishuhao/BNM
在发表在CVPR 2020 上的文章《Towards Discriminability and Diversity: Batch Nuclear-norm Maximization under Label Insufficient Situations》中,我们通过理论推导和分析,发现类别预测的判别性与多样性同时指向批量响应矩阵的核范数,这样就可以最大化批量核范数来提高迁移问题中目标域的性能。
在迁移任务中,目标域由于没有标签,常常导致分界面附近混淆较多的数据。而我们基于这一现象,分析了批量类别响应组成的批量矩阵A,并希望从判别性和迁移性进行优化。
判别性
所谓判别性,指的是预测类别的过程是否坚定。比如对于二类问题的响应
[0.9,0.1]判别性较高,
[0.6,0.4]判别性较低。
常见的方法采用最小化熵来得到较高的判别性。我们发现矩阵A的F范数与熵有着相反的单调性,从而可以通过最大化A的F范数来提升判别性。
多样性
多样性可以近似表达为批量矩阵中预测的类别数量,即预测的类别数量多则响应多样性大。
考虑不同类别响应的线性相关性,如果两个响应属于不同类别,那么响应会差别较大线性无关,如果属于相同类别则近似线性相关。
[0.9,0.1]与[0.1,0.9]线性无关,
[0.9,0.1]与[0.8,0.2]近似线性相关。
那么预测类别数也就是矩阵中最大的线性无关向量数,即矩阵的秩。
BNM
核范数是矩阵奇异值的和,在数学上有两点结论
核范数与F范数相互限制界限,
核范数是矩阵秩的凸近似。
所以类别预测的判别性与多样性同时指向矩阵的核范数,我们可以最大化矩阵核范数(BNM)来提升预测的性能。
![4049da0c72415b07190b03f6e388e2e1.png](https://i-blog.csdnimg.cn/blog_migrate/a8306c308e96770fc6e0c6b6de5bd710.jpeg)
比如上图中,如果使用熵最小化(EntMin)和BNM来优化,当熵相同的时候,使用BNM优化更容易使得核范数更大,从而正确预测绵羊的样本(保障类别比重较少的数据有利于提高整体的多样性)。
实现在常用的框架Pytorch与Tensorflow中,均可通过一行代码实现BNM
Pytorch:
L_BNM = - torch.norm(A,'nuc')
Tensorflow:
L_BNM = -tf.reduce_sum(tf.svd(A, compute_uv = False))
应用
我们将BNM应用到三个标签不足的场景中,半监督学习,领域适应和开放域物体识别。实验表明,在半监督学习中可以提升现有方法,在领域适应中BNM约束明显优于EntMin,并且单一的BNM约束可以达到与现有方法相近的性能,如下图:
![3b9d3af2f4528143c46595cdd7988db6.png](https://i-blog.csdnimg.cn/blog_migrate/c7eb7f2dfab2c205bae6dce41e354879.jpeg)
在开放域物体识别中单一的BNM约束超过有着冗杂损失函数的UODTN,达到SOTA性能,如下图:
![f1b6395376a74bff6977e8fb3a017962.png](https://i-blog.csdnimg.cn/blog_migrate/65cd024bbe24097e53e2f7b7522a0a70.jpeg)
同时在开放域物体识别中,我们统计了随机采样的批量响应中未知类所占比例,如图:
![cb38ee9f041651727e55884608c90668.png](https://i-blog.csdnimg.cn/blog_migrate/7dc50ddd537c3d659f3eec7f54b40c94.jpeg)
我们发现BNM确实可以保持未知类所占比例,从而保障整体预测的类别数量与准确性,从而保持多样性。
值得一提的是,我们的方法主要针对的是缺少标签场景下分界面附近数据密度较大的问题,对于迁移相关的任务有着较为普遍的改善价值。
![9672b5cd56dec9ffa9a2c21ed7a9a8b5.png](https://i-blog.csdnimg.cn/blog_migrate/bab769a217d1e5359372f3c9dd545f7f.jpeg)