PointNet的证明过程最全详解

最新推荐文章于 2023-09-16 00:30:00 发布

置顶 VERY_NPU

最新推荐文章于 2023-09-16 00:30:00 发布

阅读量1.7k

点赞数 13

分类专栏：三维点云文章标签：机器学习深度学习神经网络

本文链接：https://blog.csdn.net/qq_27136953/article/details/109960161

版权

三维点云专栏收录该内容

3 篇文章 1 订阅

订阅专栏

PointNet补充材料中对网络构造的证明过程详解

要看懂作者的证明过程，首先需要知道连续函数的定义。
对 $\forall$ $\varepsilon>0$ ，总 $\exists$ $\delta >0$ 如果 $\left | x-a \right |<\delta$ ，则有 $\left | f(x)-f(a))) \right |<\varepsilon$
接下来看PointNet中相关证明的理解：
f是一个连续的集合函数，它的输入应该为一个点云集合，输出可以是用于分类的多个得分数，f可以理解为一个多输入多输出的函数。f其实就是我们要完成识别或分割任务需要找到的函数。
文中指出PointNet网络结构对连续函数具有普遍的近似能力，其实就是PointNet可以近似实现f这个多输入多输出函数，类比上面提到的函数连续的等价条件，在点集S上有：
对 $\forall$ $\varepsilon>0$ ， $\exists$ $\delta >0$ 如果 $d_{h}(S,S^{'})<\delta,S,S^{'}\epsilon\chi,(\chi$ 视为高度抽象、归一化的全局特征向量集合，后面会说到为什么是这样的定义， $d_{h}$ 视为霍斯多夫距离)，那么：
$\left | f(s)-f(s^{'}))) \right |<\varepsilon$
到这里因为f是连续集合函数，上式也是理所当然的，那么作者在补充材料里究竟在证明什么？
这里先给出结论（后面皆以PointNet分类任务为准）：作者证明了通过自己搭建的网络结构对点云中的n个点分别进行了升维操作、池化，获得了一个新的向量（或者点集）就是上面提到的 $S^{'}$ ,再对 $S^{'}$ 这个向量通过卷积（也就是去近似后文提到的函数 $\gamma$ ）获得用于分类的多个得分数，完成分类任务。
这里的 $S^{'}$ 是需要证明和S之间满足 $d_{h}(S,S^{'})<\delta$ ，其中 $\delta>0$ ,这里是作者的证明中最想说明的东西，因为说明了这一点，就证明了分类网络中前半部分是准确提取出来了原始点云数据中蕴含的真正的全局特征信息。
下面给出我自己理解的证明过程：
首先要明确一些基本概念性的东西：点云中蕴含着表示物体类别的全局特征信息，这个特征可以包含坐标、RGB值、反射率等很多局部的特征，一个点的维度越多就越能更全面地对物体进行理解。
论文中可以看到 $\chi=\left \{ S:S\subseteqq [0,1]^{m}and \left | S \right |=n \right \}$ ，作者是把全局特征单位化为0到1之间，全局特征是由K个局部特征构成的，那么将[0,1]均分为K份，每一个间隔即[ $\frac{k-1}{K},\frac{k}{K}$ ],(k=1,2,3 $\cdots$ K)代表一种局部特征空间，每个局部特征中的取值也同样归一化为0到1，分别对应区间端点，即 $\frac{k-1}{K}$ 对应0, $\frac{k}{K}$ 对应1，点云中每一个点经过多层卷积升维后，每一个点应该对应有K个不同维度的值，这K个值应该分别对应K个局部特征空间，这里用 $h_{k}(x)=e^{-d(x,[\frac{k-1}{K},\frac{k}{K}]))}$ 来指示点x的第k维数据与第k个特征空间的霍斯多夫距离，也映射为0到1，(k=1,2,3 $\cdots$ K,距离越小，指示值越大，即更接近1)， $V_{k}(x_{1},x_{2},\cdots x_{n})=max\left \{ h_{k}(x_{1}),h_{k}(x_{2})\cdots h_{k}(x_{n}) \right \}$ (k=1,2,3 $\cdots$ K,原文取j，都一样便于理解取k)代表第k个特征空间中，点云中所有点最接近该特征空间的指示值，这里max函数就对应网络中的Maxpooling层，这也是该网络解决点云无序性所采用的的办法，后文称之为均衡函数。那么 $V=[v_{1},v_{2},\cdots v_{k}]$ 就代表全局特征向量。
文中指出h是由一个多层感知机网络构成，我们知道神经网络可以近似任意连续函数，这里多层感知机就是在近似K个 $h_{k}(x_{n})$ 函数，(k=1,2,3 $\cdots$ K),h函数也将原本的n个三维数据映射到n个K维数据。
下面作者引入了一个函数 $\tau (v)=\left \{ \frac{k-1}{k}:v_{k}\leq 1 \right \}(0< v_{k}\leq 1)$ （原文是大于等于1，我认为是小于等于1），这个函数的作用是将 $V=[v_{1},v_{1},\cdots v_{k}]$ 中的每一个元素都映射为其所属局部特征空间的左端点值即 $\tau (v)=[0,\frac{1}{K},\frac{2}{K},\cdots\frac{K-1}{K}]$ ,当K越大， $\tau (v)$ 这个向量的维数也就越大，也就更能铺满[0,1]这个区间，而 $S\epsilon \chi=\left \{ S:S\subseteqq [0,1]^{m}and \left | S \right |=n \right \}$ ,S是原始点集真实的全局特征映射，本来就应该铺满[0,1]区间，这也就是说 $\tau (V)=\tilde{S}$ ，使得 $d_{h}(S,S^{'})<\delta$ 。
到这里证明完毕。
作者证明了网络从开始到Maxpooling层的设置都是合理的，因为 $d_{h}(S,S^{'})<\delta$ ,此时得到的K维向量可以无限逼近于原始点集的全局特征映射，条件是K足够大。从这里看，作者似乎做了这么多卷积又回到了刚开始，这样做的意义何在？
我认为PointNet中从开始到Maxpooling的这部分网络可以全部看做一种数据编码过程，证明过程说明了数据的维度虽然变化，但仍与原始点集中蕴含一样的信息，即获得了原始数据中蕴含的那种高度抽象的可以用于分类任务的全局特征，后半部分网络再对这个全局特征进行全连接，完成识别任务。
由前文可知，下面式子必然成立：
$\left | f(\tau (V(x_{1},x_{2},\cdots x_{n})))-f(S) \right |=\left | f(\tilde{S})-f(S) \right |< \varepsilon$
而f则是由maxpooling后的网络近似出的， $f(\tau(V)$ 中f和 $\tau$ 都是由两个可以用卷积网络逼近的函数，复合后的函数记为 $\gamma$ ,则变为 $\gamma(V)$ ,进一步展开得 $\gamma(max\left \{ h_{k}(x_{1}),h_{k}(x_{2})\cdots h_{k}(x_{n}) \right \})$ 即( $\gamma o\; max)\left \{ h_{k}(x_{1}),h_{k}(x_{2})\cdots h_{k}(x_{n}) \right \}$ , $(\gamma o\; max)$ 称为均衡函数。

欢迎大家分享转载，注明出处即可