【论文阅读】Material Recognition in the Wild with the Materials in Context Database

康奈尔大学计算机系

貌似这里的patches补丁就是图片的意思。

一、摘要

识别真实图像中的材料是一项具有挑战性的任务。真实世界的材料具有丰富的表面纹理,几何形状,照明条件和杂乱,这使得问题特别困难。在本文中,我们介绍了一个新的,大规模,开放的野外材料数据集,上下文材料数据库(MINC),并将该数据集与深度学习相结合,以实现野外图像的材料识别和分割。
MINC比以前的材料数据库大一个数量级,同时在23个类别中更加多样化和良好采样。使用MINC,我们训练卷积神经网络(CNN)用于两个任务:从pathes中分类材料;在完整图像中同时进行材料识别和分割。对于MINC上基于补丁的分类,我们发现性能最佳的CNN架构可以达到85.2%的平均类精度。我们将这些经过训练的CNN分类器转换为高效的全卷积框架,并结合全连接的条件随机场(CRF)来预测图像中每个像素的材料,实现73.1%的平均类精度(精度下降了?)。我们的实验表明,拥有一个大型,采样良好的数据集(如MINC)对于真实世界的材料识别和分割至关重要。

二、内容

(1)介绍

材料识别在我们理解和与世界互动中起着至关重要的作用。为了判断表面是否易于行走,或者用什么样的抓握来拾取物体,我们必须识别周围的环境中的材料。材料自动识别在各种应用中都很有用,包括机器人,产品搜索和内部设计的图像。但是在现实世界的图像中识别材料是非常具有挑战性的。许多类别的材料,例如织物或木材,在视觉上非常丰富并且具有各种各样的外观。材料可以由于照明和形状而在外观上进一步变化。一些类别,例如塑料和陶瓷,是十分光滑和无特征的,需要推理微妙的线索或背景来区分它们。

大规模数据集(例如,ImageNet [21],SUN [31,19]和Places [34])与卷积神经网络(CNN)相结合,是近期物体识别和场景分类突破的关键。材料识别同样可以通过大规模数据和学习来提升。到目前为止,Flickr材料数据库(FMD)等中等规模的数据集促进了材料识别的进展[26]。FMD包含十个材料类别,每个类别包含从Flickr照片中提取的100个样本。
仔细选择这些图像以说明这些类别的各种外观。FMD已被用于研究材料感知和识别的新特征和学习方法[17,100,20,25]。虽然FMD是实现材料识别的重要一步,但它不足以在真实世界的图像中对材料进行分类。这是因为相对较小的类别集,每个类别的图像数量相对较少,并且还因为数据集是围绕手工挑选的材料图标设计的。OpenSurfaces数据集[1]通过从真实世界的图像中引入105,000个材质分割来解决其中一些问题,并且远远大于FMD。但是,在OpenSurfaces中,许多材料类别的采样不足,只有几十个图像。

本文的一个主要贡献是一个新的,采样良好的材料数据集,称为上下文数据库材料(MINC),有300万个材料样本。 MINC更加多样化,在不太常见的类别中有更多示例,并且比现有数据集大得多。 MINC从Flickr图像中提取数据,其中包括许多“常规”场景,以及来自舞台内部专业摄影师的Houzz图像。 这些图像源各自具有不同的特征,这些特征共同增加了可识别的材料的范围。 有关数据的示例,请参见图2。 我们在http://minc.cs.cornell.edu/上在线提供完整的数据集。

我们通过在这个新数据集上训练不同的CNN架构,将这些数据用于材料识别。我们进行实验,说明网络架构,图像上下文和训练数据大小对完整场景图像的子区域(即补丁)的影响。此外,我们建立了我们的补丁分类结果,并通过使用全连接的条件随机场(CRF)模型对图像进行密集分类来演示图像的同步材料识别和分割[12]。 通过用卷积层替换CNN的全连接层[24],计算负担明显低于朴素滑动窗口方法。
总之,我们做出了两个新的贡献:

•引入了一个新的材料数据集MINC和三阶段众包管道,可以有效地收集数百万个点击标签(第3.2节)。
•新语义分割方法将全连接的CRF与基于CNN学习特征的一元预测(第4.2节)相结合,用于同时进行材料识别和分割。

(4)材料识别

我们的目标是训练一个识别图像中每个像素的材质的系统。将训练过程分为多个阶段,并分析每个阶段的网络性能。首先训练CNN,为给定的输入补丁产生单一预测。然后将CNN转换为滑动窗口,并在图像上的密集网格上预测材料。我们在多个尺度和平均值下执行此操作以获得一元术语。最后,密集的CRF [12]将一元项与全连接的成对推理相结合,以输出每像素材料预测。 整个系统如图1所示,并在下面进行描述。

4.1训练过程

MINC包含300万个补丁,我们将其拆分为训练,验证和测试集。随机拆分可能导致几乎相同的补丁(例如,来自相同的OpenSurfaces)进行训练和测试,从而使测试分数膨胀。 为了防止相关性,我们将照片分组为近似重复的群集,然后将每个群集分配给一个列车,验证或测试。我们确保测试集中每个类别至少有75个段,以确保有足够的段来评估分段准确性。为了检测近似重复,比较从每张照片计算的AlexNet CNN特征(详见补充说明)。对于完全重复,将丢弃除一个副本之外的所有副本。

通过微调网络来训练CNN,从通过ImageNet(ILSVRC2012)的120万张图像的训练获得的权重开始。 在训练AlexNet时,我们使用随机梯度下降,批量大小为128,dropout为0.5,动量为0.9,基本学习率为10 -3,每50,000次迭代减少0.25倍。对于GoogLeNet,我们使用batchsize 69,dropout 0.4和学习率迭代次数t。

训练集每个类有不同数量的例子,所以循环遍历这些类并随机抽样每个类的一个例子。如果不能正确平衡这些例子,平均类精度会下降5.7%(在验证集上)。此外,由于已经证明可以减少过度拟合,我们通过采取作物(256×256中的227×227),水平镜面翻转,[1 /√2,√2]范围内的空间尺度,纵横比从3:4到4:3来随机增加样本幅度在[0.95,1.05]。 由于我们正在查看局部区域,我们减去每个通道的平均值(R:124,G:117,B:104)而不是平均图像[13]。

4.2 full scene material classification

图4显示了用于同时分割和识别材料的方法的概述,4(a)将图片调整为3个尺度,使用相同的滑动窗口,4(b)为4(a)上采样和平均后的结果【没懂】,4(c)为全连接CRF预测结果。给定CNN可以对图像中的各个点进行分类,我们将其转换为滑动窗口检测器,并对图像中的网格进行密集分类。具体来说,我们用卷积层替换最后一个全连接的层,这样网络就全卷积,可以对任何形状的图像进行分类。转换后,权重是固定的,不经过微调。通过我们的转换网络,每层的步幅使网络每32像素输出一次预测。我们通过将输入图像移动半步(16像素)来获得每16个像素的预测。虽然这似乎需要4倍的计算,但Sermanet等人 [24]表明旋转可以重复使用,只需要重新计算pool5到fc8层的半步幅移位。加入半步长导致各段的平均类精度提高0.2%(应用密集后) CRF,如下所述),点击位置的平均类精度大致相同。
调整输入图像的大小,使贴片映射到256x256平方。因此,对于以贴片尺度s训练的网络,调整大小的输入具有较小的尺寸d = 256 / s。注意d与比例成反比,因此增加的上下文导致较低的空间分辨率。然后我们添加填充,以便在上采样时输出概率图与输入对齐。我们在3个不同的尺度(较小的尺寸d /√2,d,d√2)重复这个,用双线性插值对每个输出概率图进行上采样,并对预测进行平均。为了使下一步更有效,我们将输出上采样到a固定较小尺寸550。

使用下述能量函数预测每个像素的类别:

其中ψi是一元能量(聚合softmax概率的负对数),ψij是连接图像中每对像素的成对项。使用单个成对项,其中Potts标签兼容性项δ由w p和单位高斯核k加权。 对于特征f i,我们将RGB图像转换为L * a * b *并使用颜色(I Li,I ai,I b i)和位置(p x,p y)作为每个像素成对特征:,其中d是较小的图像尺寸。图4显示了一元项p i和得到的分割结果x。

 

 

 

 

 

 

 

 

 

 

以下是对提供的参考资料的总结,按照要求结构化多个要点分条输出: 4G/5G无线网络优化与网规案例分析: NSA站点下终端掉4G问题:部分用户反馈NSA终端频繁掉4G,主要因终端主动发起SCGfail导致。分析显示,在信号较好的环境下,终端可能因节能、过热保护等原因主动释放连接。解决方案建议终端侧进行分析处理,尝试关闭节电开关等。 RSSI算法识别天馈遮挡:通过计算RSSI平均值及差值识别天馈遮挡,差值大于3dB则认定有遮挡。不同设备分组规则不同,如64T和32T。此方法可有效帮助现场人员识别因环境变化引起的网络问题。 5G 160M组网小区CA不生效:某5G站点开启100M+60M CA功能后,测试发现UE无法正常使用CA功能。问题原因在于CA频点集标识配置错误,修正后测试正常。 5G网络优化与策略: CCE映射方式优化:针对诺基亚站点覆盖农村区域,通过优化CCE资源映射方式(交织、非交织),提升RRC连接建立成功率和无线接通率。非交织方式相比交织方式有显著提升。 5G AAU两扇区组网:与三扇区组网相比,AAU两扇区组网在RSRP、SINR、下载速率和上传速率上表现不同,需根据具体场景选择适合的组网方式。 5G语音解决方案:包括沿用4G语音解决方案、EPS Fallback方案和VoNR方案。不同方案适用于不同的5G组网策略,如NSA和SA,并影响语音连续性和网络覆盖。 4G网络优化与资源利用: 4G室分设备利旧:面对4G网络投资压减与资源需求矛盾,提出利旧多维度调优策略,包括资源整合、统筹调配既有资源,以满足新增需求和提质增效。 宏站RRU设备1托N射灯:针对5G深度覆盖需求,研究使用宏站AAU结合1托N射灯方案,快速便捷地开通5G站点,提升深度覆盖能力。 基站与流程管理: 爱立信LTE基站邻区添加流程:未提供具体内容,但通常涉及邻区规划、参数配置、测试验证等步骤,以确保基站间顺畅切换和覆盖连续性。 网络规划与策略: 新高铁跨海大桥覆盖方案试点:虽未提供详细内容,但可推测涉及高铁跨海大桥区域的4G/5G网络覆盖规划,需考虑信号穿透、移动性管理、网络容量等因素。 总结: 提供的参考资料涵盖了4G/5G无线网络优化、网规案例分析、网络优化策略、资源利用、基站管理等多个方面。 通过具体案例分析,展示了无线网络优化中的常见问题及解决方案,如NSA终端掉4G、RSSI识别天馈遮挡、CA不生效等。 强调了5G网络优化与策略的重要性,包括CCE映射方式优化、5G语音解决方案、AAU扇区组网选择等。 提出了4G网络优化与资源利用的策略,如室分设备利旧、宏站RRU设备1托N射灯等。 基站与流程管理方面,提到了爱立信LTE基站邻区添加流程,但未给出具体细节。 新高铁跨海大桥覆盖方案试点展示了特殊场景下的网络规划需求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值