刘志
计算机科学
1、解决的问题
为了提高三维数据的自主学习特征能力。
视图选取的问题:
(1)视图冗余度过高
(2)在不同类别的模型下提取的视图质量不一,难以找到具有普适性的视图选取方法。
(3)训练数据不均衡,对较优视图集进行深度卷积神经网络的训练产生影响。
当前深度学习在三维模型特征提取遇到的问题:
2、创新点
使用简单背景下的自然图像作为输入源,以三维模型的较优视图集为基础,对其提取边缘轮廓,通过深度卷积神经网络的训练提取深度特征,以此来实现三维模型检索
3、优点
该算法能够有效利用深度卷积神经网络对3D模型的视图进行深度特征提取,同时还降低了输入源的获取难度,有效提高了检索效果。
4、缺点
本文算法的检索结果在鱼、床等分类上的效果一般, 经过观察发现这些分类下线条提取的效果不够理想。
当物体具有过多纹理或边缘特征模糊时,提取到的视图质量不够好,对训练效果有所影响。
5、算法原理
首先,从多个视角点对3D模型进行视图提取,根据灰度熵排序来选取较优视图;
然后,通过深度卷积神经网络对较优视图集进行训练,从而提取深度特征并进行降维,同时,对输入的自然图像提取边缘轮廓图,经过相似度匹配获得一组三维模型;
最后,对(检索结果中同类模型总数/检索列表长度)此列表进行重排序,从而获得最终的检索结果。
5.1、较优视图的选取
5.1.1、视图渲染方法
视图的渲染质量决定了视图所能携带的三维模型的信息量。本文采用闭合轮廓线和暗示轮廓相结合的渲染方法(混合轮廓线)对三维模型进行视图渲染。
首先检测视点向量与模型表面法向量垂直的部分,并将其会指出来得到闭合轮廓线,然后检测出接近人工可视曲率的部分线条进一步绘制出暗示轮廓线,来获得最终的线条轮廓图。
对于输入源,对其提取剪影轮廓,并结合canny算子提取混合边缘,然后通过形态学膨胀去除小噪声,平滑物体边界。
5.12、较优视图选择
本文在预定义视点的选取上,用视点球对3D模型进行包裹,使用6个正投影点和10个等距投影点从不同角度等距的对三维模型进行视图提取。在视图质量的评价上,将提取后的视图按照灰度熵排序,保留熵最大的n个视图。
5.2、深度特征提取
5.2.1网络结果设计
利用深度卷积神经网络的特点:(1)越靠近网络顶层提取到的特征越局部化,特征的泛化能力越强;(2)越靠近底层的网络提取到的特征就越全局化,与使用的数据集的关系越紧密。
因此使用网络架构:基线网络VGG16网络。在此基础上构建一个由3个卷积层、1个池化层、2个全连接层和1个softmax分类器构成的卷积神经网络CNN_FLI。如下图所示:
激活函数:ELU激活函数;
卷积核设置:1*1,,3*3,1*1三种卷积核相互交替的模式,其中1*1卷积核是在保持维度不变的情况下对输入进行线性形变,之后再通过激活函数对其进行非线性化,降低了层数的增加带来的过拟合倾向。
池化层:2*2。有两个好处:(1)有效减少参数数量;(2)使提取的特征对图像的平移、旋转、缩放具有一定的不变性
全连接层:1024
5.2.2、神经网络训练
首先,预训练阶段,固定VGG16卷积模块的权重,将其作为特征提取器,然后对CNN-FLI的权重随机初始化,选择RMSProp最优化方法展开训练,学习率是0.001,以此获得较好的初始权重;
其次,微调部分(fine-tune),在上面的基础上将VGG16模块的最后3个卷积层与CNN-FLI进行同步微调,学习率是0.0001,为了避免震荡或者难以收敛问题。
经过充分训练后,选取1024维全连接成的特征代表二维视图,该特征付轮廓线条图具有较好的表达效果,并且使用pCA将维度降到128维,在保持检索精度的基础上降低了数据冗余。
5.2.3、检索结果重排序
同一模型的不同视图在检索列表中出现的次数以及列表中各个类别下的模型数量占列表长度的比例对检索结果重排序。
首先,对输入的自然图像提取边缘轮廓图和模型的较优视图分别提取深度特征,并计算两者之间的欧氏距离,进而得到匹配度。
其次,按照得到的匹配度排序获取“初始检索列表L0”,当同一个3D模型的不同视图同时进入该列表时,选取匹配度最高的视图,并将其与所属的三维模型逐一对应,从而得到三维模型的候选列表L。同时统计每个模型的视图在L0中出现的次数,
其中,score0代表结果列表中每个模型的匹配值;a1为固定常数,选为0.1;t为列表中模型的视图在L0中出现的次数,3的效果最好。
length为候选列表的长度;i为同类模型的出现次数;score是最终的匹配度。a2的取值过小产生不了影响,过大会使结果排序过于依赖模型所属的类别而忽视视图本身的特性。当a2=0.1时效果最好。
6、实验设计
6.1、实验设置
数据集 : SHREC14,不同分类下的模型数量差距悬殊。为了处理数据不均衡问题,本文选择了分类下模型数量超过90的类别共20类
16个预定义视点得到二维边缘轮廓图-->灰度熵过滤筛选出12张较优视图组成较优视图集-->较优视图集里26066张作为训练集,7752张作为测试集,尺寸统一为150*150-->深度卷积神经网络训练,输出1024维的全连接层,通过PCA降到128维-->人工按诶别搜集20幅自然图像作为输入检测本文算法的检索结果。以摩托车为例:
6.2、参数验证
从表格中可以观察出,当维度为128时效果最好。下图是将降维前后以及检索列表重排序前后的MAP对比。
6.3、对比试验
imgCNN:VGG16网络模型
Gabor+BOW:Gabor滤波器结合视觉词袋的算法提取边缘,并使用视觉特征袋优化
BF-SIHF:使用sift描述子结合视觉词袋进行特征提取
不同指标下的性能比较