[计算机视觉]论文笔记—Group Equivariante Convolutional Networks

最新推荐文章于 2023-01-11 18:32:03 发布

Bajo

最新推荐文章于 2023-01-11 18:32:03 发布

阅读量883

点赞数 2

分类专栏：深度学习文章标签：卷积计算机视觉神经网络

本文链接：https://blog.csdn.net/qq_34886635/article/details/113611618

版权

本文详细介绍了Taco S. Cohen和Max Welling的论文《Group Equivariante Convolutional Networks》，探讨了如何通过群论构建具有等变性的卷积神经网络，包括群等变卷积和池化操作。该论文提出了新的卷积和池化方式，以增强模型对抗旋转等变换的能力，并在旋转MNIST和CIFAR数据上展示了其实效性。

摘要由CSDN通过智能技术生成

论文笔记—Group Equivariante Convolutional Networks

前言

提到等变性就不得不提不变性这一性质。在卷积神经网络诞生之初，大家普遍认为使得其性能如此之好的原因之一便是其具有一定的平移不变性。起初人们为了增强其拥有的不变性，普遍采用的一些trick都是属于数据增强的类别，而非通过设计网络结构使得网络内在地具有不变性。之后，慢慢有人提出了一些具有不变性的结构或权值共享方式等。但是随着一些新的任务如语义分割和大家对卷积神经网络的讨论，人们认为卷积神经网络应当拥有的是等变性。这时候，对于平移、旋转、对称和缩放等对称变换群下的等边性的讨论也慢慢展开了。这里我们做介绍的是Taco S. Cohen和Max Welling 首次提出的群等边神经网络，其通过数学的表达，利用群论作为工具分析了卷积神经网络下的等变性结构的表达方式，同时提出了群等变卷积和群等变池化等操作。而这篇文章很有意义的一点，我觉得是通过数学表达高度抽象出了一套分析等变性的体系，从而之前很多的一些关于等变性的结构都可以被抽象到这套体系之中。

论文信息

文章名称：Group Equivariante Convolutional Networks

文章作者：Taco S. Cohen, Max Welling

收录情况：Accepted by ICML 2016

文章链接：http://proceedings.mlr.press/v48/cohenc16.pdf

代码链接：https://github.com/tscohen/gconv_experiments

简要总结

1.论文目的
- 希望通过对卷积神经网络的改进，使其在特定变换群下具有等变性的网络
2.论文方法
- 提出了全新的卷积方式：群等边卷积
- 提出了全新的池化方式：子群池化和陪集池化
3.实现效果
- 在带有旋转变换的MNIST和CIFAR数据上进行了实验，旋转群等边卷积网络具有一定的抗旋转性
4.论文展望
- 从二维图像推广到三维图像
- 能否应对更为复杂的数据集

论文讲解

1.等变性的定义

在这里插入图片描述

等变性和不变性的定义

对于一个网络或是网络的一层 $\Phi$ ，将输入特征映射到输出特征，应该保留结构信息。对于G空间上来说， $\Phi$ 具有等变性的定义如下： $\Phi(T_gx)=T_g'\Phi(x)$

$T_gx$ 表示对输入 $x$ 进行变换 $T_g$ ，然后再进入函数 $\Phi$ 得到输出。这时的 $T_g$ 是作用在输入x的空间上的变换。
$T'_g\Phi(x)$ 表示对原始的输入x在经过函数 $\Phi$ 后，再进行变换 $T_g'$ 。此时的 $T_g'$ 是作用在 $\Phi(x)$ 的空间上的变换。
等变性就意味着，对于作用在函数 $\Phi$ 输入空间上的变换 $T_g$ 有一个对应的作用在 $\Phi$ 输出空间上的变换 $T_g'$ 使得，对于输入空间中的任意的元素都满足以上等式。此时，函数 $\Phi$ 对变换 $T_g$ 具有等变性。注意， $T_g$ 和 $T'_g$ 不一定一样，且二者是作用在不同空间上的。
不变性则是等变性的一种特定情况。即 $\Phi(T_gx)=\Phi(x)$
当函数 $\Phi$ 对一个变换群 $G$ 中任意的变换 $T_g$ 都满足等变性时，则称这个函数 $\Phi$ 对群 $G$ 满足等变性。
根据大家的讨论，如今普遍认为一个良好的模型应该拥有的是等变性。因为仅仅拥有不变性的话，那么模型无法对图片中特征的位置进行分析。比如在人脸检测中，一张照片里的五官是打乱位置的，但由于不变性无法对位置进行分析，依然判定是人脸。但等变性则是能够保留位置的不同信息的。如图：

等变性与不变性示意图

传统的神经网络讲第一张图和第二张图都认做成了Person而把第三张图让你成了Coal black color，显然是错误的。而这种错误，就是因为其在特征提取阶段缺少等变性而造成的。注意：对于图像检测模型来说，我们希望的是在特征提取阶段获得等变性，从而使得整个模型的输出结果具有不变性。就是在图片进行一定的变换后，我们依然可以正确识别它，和不变换具有相同的结果。当图片的变换不合理时，我们也能够检测到这种不合理的从而有输出相应的结果。如果模型在特征提取阶段不具有等变性只具有不变性，那么无论照片进行怎么样的变换，整个模型的输出结果都将是一样的结果，这是不合理的。

2.数学框架

2.1 对称群和各类对称群介绍

在这里插入图片描述

对称群的介绍

这里作者介绍了两个作用在 $\mathbb{Z^2}$ 上的对称变换群，以及其矩阵表示形式：

p4群：包含所有的平移变换以及绕网格中任意旋转中心旋转90度的旋转变换。其矩阵表示如下： $g(r,u,v)=\left[\begin{matrix} cos(r\pi/2)&-sin(r\pi/2)&u \\ sin(r\pi/2)&cos(r\pi/2)&v \\ 0&0&1\end{matrix}\right]$
其中 $r, u, v$ 均为整数，且 $0\le r<4,\ (u,v)\in \mathbb{Z^2}$
其左右在点 $x\in\mathbb{Z^2}$ （像素的坐标）上的具体方式，通过左乘矩阵 $g (r, u, v)$ 和 $x$ 的坐标向量 $x (u^{'}, v^{'})$ : $gx\simeq\left[\begin{matrix}cos(r\pi/2)&-sin(r\pi/2)&u\\ sin(r\pi/2)&cos(r\pi/2)&v\\ 0&0&1\end{matrix}\right]\left[\begin{matrix}u'\\v'\\1\end{matrix}\right]$
p4m群：包含所有的平移变换、镜像反转变换和绕网格中任意旋转中心旋转90度的旋转变换。其矩阵表示如下： $g(m,r,u,v)=\left[\begin{matrix} (-1)^mcos(r\pi/2)&-(-1)^m-sin(r\pi/2)&u \\ sin(r\pi/2)&cos(r\pi/2)&v \\ 0&0&1\end{matrix}\right]$

最低0.47元/天解锁文章

Bajo

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
[计算机视觉]论文笔记—Group Equivariante Convolutional Networks

论文笔记—Group Equivariante Convolutional Networks前言提到等变性就不得不提不变性这一性质。在卷积神经网络诞生之初，大家普遍认为使得其性能如此之好的原因之一便是其具有一定的平移不变性。起初人们为了增强其拥有的不变性，普遍采用的一些trick都是属于数据增强的类别，而非通过设计网络结构使得网络内在地具有不变性。之后，慢慢有人提出了一些具有不变性的结构或权值共享方式等。但是随着一些新的任务如语义分割和大家对卷积神经网络的讨论，人们认为卷积神经网络应当拥有的是等变性。
复制链接

扫一扫

专栏目录