识别物体形状颜色_用于物体识别的3D卷积神经网络

最新推荐文章于 2022-11-10 11:26:33 发布

weixin_39822493

最新推荐文章于 2022-11-10 11:26:33 发布

阅读量684

点赞数

文章标签：识别物体形状颜色

本文提出了一种基于CNN的3D物体识别方法，能够从3D图像表示中识别3D物体，并在比较了不同的体素时的准确性。已有文献中，3D CNN使用3D点云数据集或者RGBD图像来构建3D CNNs，但是CNN也可以用于直接识别物体体积表示的体素。本文中，我们提出了3D CAD物体检测。

数据集

近年来，已有一些3D数据集可用。但是，这些数据集没有像包含2D图像的ImageNet1数据集那样大。有许多合理大小的三维数据集。大多数三维数据集是基于点云的，这些点云是通过距离扫描器获取的，比如ModelNet2、Sydney Urban Objects3、SUN-3D4。ModelNet数据集用于训练和测试提出的CNN模型。ModelNet数据集包含来自662个不同对象类的127,915张CAD三维图像。ModelNet40是ModelNet的一个子集，它是3D对象识别的基准，并分为9843个训练图像和2468个测试图像中使用。在实验中，我们还在ModelNet10上测试了我们的网络。ModelNet10有10个对象类别，它是ModelNet40的一个子集。在实验中，我们还在ModelNet10上测试了我们的网络。ModelNet10有10个对象类别，它是ModelNet40的一个子集。

方法

通过从目标类中选择最相似的特征，实现了三维CNN中的目标识别。对象识别过程可分为两部分，即三维对象的数据表示和CNN对表示数据的训练。我们在提出的架构中使用了三维体数据表示。大多数研究人员使用体素或点云方法来表示体积数据。我们在CNNs中使用了基于体素的数据表示。体素是在二进制“occupation grid”的帮助下生成的。与二维数据集相比，dataset提供的模型数量较少，因此，为了利用网络，我们向模型提供了沿重力方向30°的旋转。所有的体素都是由ModelNet 数据集中提供的网格模型渲染到12个不同的方向后生成的。本文所提出的网络是Voxnet的改进版本。我们使用了两种不同的网络进行培训。

网络模型1

Network-1包括三个卷积层和两个完全连接的层。大多数研究人员使用的体素大小等于或小于32×32×32。但是，我们认为32×32×32像素对于一个物体的准确预测是非常少的。在二维图像任务中，实验表明小于227×227的迭代对二维图像中的目标识别任务效果不佳。为了充分利用网络，我们使用体素有32×32×32、64×64×64、128×128×128三种不同尺寸。体素中的许多像素表示空单元，产生大量不必要的矩阵乘法(零值矩阵)。为了降低这一成本，我们使用5×5×5的核来代替体积CNNs中常用的3×3×3卷积核。卷积(layer)操作后使用ReLU和max-pooling(大小为2×2×2)层。池化层来减少过多参数的过拟合。为了避免数据过拟合，由于方向和相似的视图，我们在第一个完全连接层之前使用dropout层，概率为0.5。

网络模型2

网络模型2的灵感来自AlexNet的网络架构。它由五个卷积层和三个全连接的层组成。网络模型2还使用了体素的多个视图。我们以30度旋转训练网络。除了池之外，此网络具有network-1中使用的所有设置。为了训练网络，我们没有使用网络中池化层。在我们看来，池化可以在对象的形状上产生歧义。Network-2帮助我们了解CNN的深度如何影响识别模型的性能。

实验

该网络使用ModelNet数据集进行训练和测试。所有的三维CAD图像都使用[19]提供的脚本在体素中转换。我们测试了不同尺寸的体素32×32×32、64×64×64和128×128×128的网络。我们分别实现了这两个网络，并比较了它们的结果。然而，两种网络的结果有非常小的差异。我们比较了ModelNet10和ModelNet40数据集的体素大小相同的结果。结果表明，高分辨率体素提高了识别任务的精度。与VoxNet相比，我们的模型具有更好的精度。然而，VoxNet在其架构中只有不到100万个参数，而我们的network-2有超过200万个参数。我们训练network-2不使用pooling来测试pooling对volume - CNN的效果。但结果表明，池化层对结果没有显著影响。池化层对性能没有影响的原因之一是，用于训练和测试的所有体素都是实心的。ModelNet数据集中没有一个对象模型，它具有空心对象。结果如图4所示，图5为损耗和精度。

结论

本文描述了基于体素的三维数据表示的三维数据识别任务。分析了CNN在不同体素尺寸下的性能。分析进一步设计新的网络和测试不同大小的体素，以找到适合CNN操作的大小。实验结果表明，体素的大小直接影响目标识别任务。但是另一方面，增加体素的大小会在容量CNN架构中造成性能瓶颈。为了克服这一问题，我们应该探索一种关于时间和空间的优化数据结构来处理体素的大尺寸。

weixin_39822493

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
识别物体形状颜色_用于物体识别的3D卷积神经网络

本文提出了一种基于CNN的3D物体识别方法，能够从3D图像表示中识别3D物体，并在比较了不同的体素时的准确性。已有文献中，3D CNN使用3D点云数据集或者RGBD图像来构建3D CNNs，但是CNN也可以用于直接识别物体体积表示的体素。本文中，我们提出了3D CAD物体检测。相关工作3D形状描述符。现代3D物体识别模型起始于60年代，早期的识别框架基于几何模型。然而，大多数识别工作基于手工提取的...
复制链接

扫一扫