【今日CV 计算机视觉论文速览第127期】Fri, 7 Jun 2019_progressive-x: efficient, any- time, multi-model f-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/91345408

今日CS.CV 计算机视觉论文速览
Fri, 7 Jun 2019
Totally 41 papers
?上期速览✈更多精彩请移步主页

在这里插入图片描述

Interesting:

?*****Mesh R-CNN, 研究人员提出了一种通过二维图像输入得到目标三维mesh的模型Mesh RCNN，通过在maskRCNN上增加了一条mesh预测支路来实现，首先预测出粗略的体素，随后利用图网络优化出精细的mesh顶点和边。(from FAIR)
在这里插入图片描述
模型的结构如下，首先利用新的分支预测出粗糙的体素、随后利用序列的图卷积法来优化mesh。

实验结果，可以同时预测出图像中的目标、掩膜和mesh网格：

?***3D-RelNet通过2D图像和bbox输入预测出3D结构与规划, 研究人员充分利用了物体间的位置关系（位置的相关性十分重要）来帮助3D预测，通过预测目标的三维位置和相对位姿来辅助3D 形状的预测。(from 卡内基梅隆 FAIR)
通过输入目标和bbox，首先预测出3D位置和两两间的相对位置，而后利用这些位置关系保证相关性的连续来预测出最终的3D结果：
在这里插入图片描述
包含了用于编码目标的编码器和编码相对位置的编码器，而对应的解码器则能得到目标的编码和每对编码目标间的相关性。

最终的3D预测结果如下图所示：
code:https://nileshkulkarni.github.io/relative3d/
code:https://github.com/nileshkulkarni/relative3d

?指甲油试涂网络模型, (from modiface)
在这里插入图片描述
数据集作者自己标注的，等开源。ps 美妆行业应用多，还有很多耳环、配饰的try-on方法
demo：https://ola.modiface.com/nailsweb/cvpr2019demo

?轻量级的移动端人脸试装模型, (from modiface)
在这里插入图片描述
demo:https://s3.amazonaws.com/makeup-paper-demo/index.html
ref：https://mobile-ar.reality.news/news/cover-girl-opts-for-browser-ar-try-tool-instead-mobile-app-results-are-tragic-0182754/
耳环、项链：https://mobile-ar.reality.news/
ref ICIP :https://2019.ieeeicip.org/

TL;DwR
+++++Mesh R-CNN
StyleNAS神经架构搜索
 +++3D-RelNet
建筑物外墙框线检测方法
 +++指甲油试涂网络模型
 全向场景文本检测
 ++轻量级的移动端人脸试装模型，code：https://s3.amazonaws.com/makeup-paper-demo/index.html
基于快速傅里叶变换的神经架构设计模型
 MNIST-C提高鲁棒性的MNIST数据集
 指纹激光散斑检测方法
 +块区域缺陷检测方法
 视频去雨滴
 室内目标检测在不同家庭通用性？
Neural SDE

Daily Computer Vision Papers

Mesh R-CNN
Authors Georgia Gkioxari, Jitendra Malik, Justin Johnson
2D感知的快速发展已经导致系统准确地检测现实世界图像中的对象。然而，这些系统在2D中进行预测，忽略了世界的3D结构。同时，3D形状预测的进步主要集中在合成基准和孤立对象上。我们统一了这两个方面的进展。我们提出了一种系统，用于检测真实世界图像中的对象并生成三角形网格，从而为每个检测到的对象提供完整的3D形状我们的系统，称为Mesh R CNN，使用网格预测分支增强Mask R CNN，该网格预测分支通过首先预测粗体素表示来输出具有不同拓扑结构的网格，粗体素表示被转换为网格并且使用在网格顶点和边缘上操作的图形卷积网络进行细化。。我们在ShapeNet上验证我们的网格预测分支，在那里我们优于单个图像形状预测的先前工作。然后我们在Pix3D上部署完整的Mesh R CNN系统，我们联合检测物体并预测它们的3D形状。

3D-RelNet: Joint Object and Relational Network for 3D Prediction
Authors Nilesh Kulkarni, Ishan Misra, Shubham Tulsiani, Abhinav Gupta
我们提出了一种方法来预测场景中存在的物体的3D形状和姿势。追求这一目标的现有基于学习的方法对每个对象进行独立预测，并且不利用它们之间的关系。我们认为推理这些关系是至关重要的，并提出了将这些关系纳入3D预测框架的方法。除了独立的每个对象预测之外，我们还以相对3D姿势的形式预测成对关系，并证明这些可以很容易地结合起来以改善对象水平估计。我们报告了不同数据集SUNCG，NYUv2的性能，并表明我们的方法明显优于独立预测方法，同时也优于其他隐式推理方法。

Feature-level and Model-level Audiovisual Fusion for Emotion Recognition in the Wild
Authors Jie Cai, Zibo Meng, Ahmed Shehab Khan, Zhiyuan Li, James O Reilly, Shizhong Han, Ping Liu, Min Chen, Yan Tong
情感识别在人机交互HCI中起着重要作用，并且已经进行了数十年的广泛研究。尽管已经对表达的表达方式进行了巨大的改进，但在接近现实世界的环境中识别人类情感仍然是一个挑战。在本文中，我们提出了两种策略来融合从不同模态（即音频和视觉）中提取的信息。具体来说，我们利用LBP TOP，一个CNN集合，一个双向LSTM BLSTM从视觉通道中提取特征，以及OpenSmile工具包从音频通道中提取特征。开发了两种融合方法，即特征级融合和模型级融合，以利用从两个通道提取的信息。 EmotiW2018 AFEW数据集的实验结果表明，与现有技术方法相比，所提出的融合方法显着优于基线方法，并且实现了更好或至少相当的性能，其中当其中一个通道完全失效时，模型级融合表现更好。

Does Object Recognition Work for Everyone?
Authors Terrance DeVries, Ishan Misra, Changhan Wang, Laurens van der Maaten
本文分析了地理上不同的数据集上公开可用的对象识别系统的准确性。该数据集包含家庭用品，旨在比对象识别中常用的图像数据集具有更具代表性的地理覆盖范围。我们发现这些系统在家庭用品上的表现相对较差，这些家庭用品通常出现在家庭收入较低的国家。定性分析表明，性能下降主要是由于对象类（例如洗碗皂）内的外观差异以及由于出现在不同背景下的物品，例如出现在浴室外的牙刷。我们的研究结果表明，需要进一步开展工作，使对象识别系统对不同国家和收入水平的人们同样有效。

Scaling Autoregressive Video Models
Authors Dirk Weissenborn, Oscar T ckstr m, Jakob Uszkoreit
由于视频的统计复杂性，高度固有的随机性以及产生自然视频的大量数据仍然是一项具有挑战性的任务。最先进的视频生成模型试图通过组合有时复杂的，通常是视频特定的神经网络架构，潜变量模型，对抗性训练和一系列其他方法来解决这些问题。尽管它们通常具有很高的复杂性，但这些方法仍然无法在狭窄领域之外产生高质量的视频延续，并且往往难以保真。相比之下，我们表明，基于三维自我关注机制的概念上简单的自回归视频生成模型在流行的基准数据集上的多个指标上实现了高度竞争的结果，为此它们产生了高保真度和真实性的延续。此外，我们发现我们的模型能够对来自Kinetics的视频子集产生多样且令人惊讶的逼真延续，Kinetics是一个大型动作识别数据集，由YouTube视频组成，展示了相机运动，复杂物体相互作用和多样化的人体运动等现象。据我们所知，这是视频生成模型在这种复杂性视频中的第一个有前途的应用。

Weakly-Supervised Spatio-Temporally Grounding Natural Sentence in Video
Authors Zhenfang Chen, Lin Ma, Wenhan Luo, Kwan Yee K. Wong
在本文中，我们讨论了一个新的任务，即弱监督的空间在视频中暂时接地自然句。具体地，给定自然语句和视频，我们在视频中定位与给定句子对应的空间时间管，而不依赖于训练期间的任何空间时间注释。首先，从视频中提取一组称为实例的时空管。然后，我们使用我们提出的细心交互器对这些实例和句子进行编码，这可以利用它们的细粒度关系来表征它们的匹配行为。除了排名损失之外，还引入了一种新的多样性损失来训练所提出的注意交互者以加强可靠实例句对的匹配行为并惩罚不可靠的实例。此外，我们还提供了一个基于ImageNet视频对象检测数据集的称为VID语句的数据集，作为我们任务的基准。广泛的实验结果证明了我们的模型优于基线方法。

STN-Homography: estimate homography parameters directly
Authors Qiang Zhou, Xin Li
在本文中，我们引入STN Homography模型来直接估计图像对之间的单应矩阵。使用替代4点单应性参数化的不同大多数基于CNN的单应性估计方法，我们使用证明，在坐标归一化之后，坐标归一化3倍3单应矩阵的元素的方差非常小并且适合于与CNN良好地回归。基于提出的STN Homography，我们使用分层架构，其堆叠若干STN Homography模型并连续地减少估计误差。通过MSCOCO数据集上的实验显示了所提出方法的有效性，其中它明显优于现有技术。我们的1级分层STN Homography的平均处理时间在GPU上仅为4.87 ms，而3级分层STN Homography的处理时间为17.85 ms。该代码很快就会开源。

Contextual Relabelling of Detected Objects
Authors Faisal Alamri, Nicolas Pugeault
上下文信息（例如对象的共同出现以及对象之间的空间和相对大小）提供关于场景的深层和复杂信息。它还可以在改进对象检测方面发挥重要作用。在这项工作中，我们提出了两个上下文模型rescoring和re标记模型利用上下文信息16本文应用上下文关系来增强现有技术RCNN基于对象检测更快的RCNN。我们通过实验证明，我们的模型使用MSCOCO领域中最常用的数据集，可以提高检测性能。

Removing Rain in Videos: A Large-scale Database and A Two-stream ConvLSTM Approach
Authors Tie Liu, Mai Xu, Zulin Wang
除雨最近引起了越来越多的研究关注，因为它能够提高雨视频的可见度。然而，现有的基于学习的视频雨水去除方法缺乏足够的训练数据，特别是在应用深度学习去除雨水时。在本文中，我们建立了一个大型的雨水排除视频数据库LasVR，由316个雨视频组成。然后，我们从数据库中观察到，视频帧中存在干净内容和类似降雨模式的时间相关性。根据这两个观察结果，我们提出了一种双流卷积长期和短期记忆ConvLSTM方法，用于视频中的雨水清除。第一个流由用于雨水检测的子网组成，而第二个流是利用雨水检测子网中的功能的除雨子网。最后，合成和真实雨视频的实验结果表明，所提出的方法比其他最先进的方法表现更好。

Anytime Lane-Level Intersection Estimation Based on Trajectories
Authors Annika Meyer, Jonas Walter, Martin Lauer, Christoph Stiller
估计和理解当前场景是自动驾驶车辆不可避免的能力。通常，地图用作解释传感器测量的先验，以便安全驾驶。只有少数方法考虑到地图可能已过时，从而导致对环境的错误假设。该工作基于其他交通参与者的轨迹估计没有任何地图先验的车道水平交叉点拓扑。我们能够使用马尔可夫链蒙特卡罗采样提供粗车道水平拓扑以及交叉口内外的车道路线。该模型既不限于许多车道或车臂，也不限于交叉口的拓扑结构。我们在大约1000个交叉点上的评估集上呈现我们的结果，并且在利用跟踪对象检测时，在拓扑估计上实现99.9准确度，仅需73毫秒。估计交叉路口上精确的车道路线可以获得平均偏离地面事实仅20厘米的结果。

StyleNAS: An Empirical Study of Neural Architecture Search to Uncover Surprisingly Fast End-to-End Universal Style Transfer Networks
Authors Jie An, Haoyi Xiong, Jinwen Ma, Jiebo Luo, Jun Huan
神经架构搜索NAS已经被广泛研究用于设计辨别深度学习模型，例如图像分类，对象检测和语义分割。由于通过手工设计领域获得了大量的先验，NAS通常被认为是一种补充方法。在本文中，我们通过对NAS进行实证研究来搜索生成模型，或者特别是基于自动编码器的通用样式转移，从而在架构搜索方面缺乏系统探索（如果有的话），从而显着扩展了NAS的应用领域。在我们的工作中，我们首先设计了一个搜索空间，在这个搜索空间中，通过组合方法搜索用于图像样式传输的常用运算符，例如基于VGG的编码器，白化和着色变换WCT，卷积内核，实例归一化运算符和跳过连接。通过一个简单而有效的具有多个目标的并行进化NAS算法，我们推导出第一组端到端深度网络，用于普遍的真实照片风格转换。与随机搜索相比，最近越来越受欢迎的NAS方法，我们证明了精心设计的搜索策略可以带来更好的架构设计。最后，与用于照片级渲染的现有通用样式传输网络（如PhotoWCT，以非端到端的方式堆叠多个训练有素的自动编码器和WCT变换）相比，StyleNAS设计的架构可生成更好的样式传输图像，并保留细节，使用的数量很少运营商参数，享受约500倍的推理时间加快。

ActivityNet-QA: A Dataset for Understanding Complex Web Videos via Question Answering
Authors Zhou Yu, Dejing Xu, Jun Yu, Ting Yu, Zhou Zhao, Yueting Zhuang, Dacheng Tao
建模语言和视觉的最新发展已成功应用于图像问答。将此研究方向扩展到视频问题解答VideoQA的视频领域是至关重要和自然的。与存在大规模和完全注释的基准数据集的图像域相比，VideoQA数据集限于小规模并自动生成等。这些限制限制了它们在实践中的适用性。这里我们介绍ActivityNet QA，一个完全注释的大规模VideoQA数据集。该数据集包含来自流行的ActivityNet数据集的5,800个复杂网络视频上的58,000个QA对。我们对ActivityNet QA数据集进行统计分析，并通过比较现有的VideoQA基线对其进行大量实验。此外，我们探索各种视频表示策略，以提高VideoQA性能，尤其是对于长视频。数据集可在以下位置获得

Extreme Points Derived Confidence Map as a Cue For Class-Agnostic Segmentation Using Deep Neural Network
Authors Shadab Khan, Ahmed H. Shahin, Javier Villafruela, Jianbing Shen, Ling Shao
为了自动分割感兴趣的解剖结构的过程，我们可以从先前注释的数据中学习模型。基于学习的方法使用注释来训练模型，该模型试图模拟新数据集上的专家标签。虽然使用这种方法已经取得了巨大进步，但医学图像的标记仍然是耗时且昂贵的任务。在本文中，我们评估极端点在学习分段中的效用。具体来说，我们提出了一种新方法，用于从极端点计算置信度图，定量编码从极值点导出的先验。我们使用置信度图作为基于ResNet 101和PSP模块训练深度神经网络的线索，以开发一种类别不可知的分割模型，该模型优于采用极端点作为提示的最先进方法。此外，我们通过使用我们的模型来生成用于监督学习U Net的训练数据来评估实际用例，并且观察到U Net在用生成的数据或地面实况数据训练时表现相当。这些发现表明，使用提示训练的模型可用于生成可靠的训练数据。

Handling Inter-Annotator Agreement for Automated Skin Lesion Segmentation
Authors Vinicius Ribeiro, Sandra Avila, Eduardo Valle
在这项工作中，我们探讨了用于训练和评估皮肤病变自动分割的注释器间协议的问题。我们将探讨不同程度的协议代表什么，以及它们如何影响不同的分割用例。我们还评估了如何使用不同但非常简单的算法调整基础事实可能有助于增强协议，并且可能适用于某些用例。皮肤病变的分割是自动皮肤病变分析的基石任务，既可作为定位检测病变的最终结果，又可作为病变分类的辅助任务。然而，病变分割是一项非常具有挑战性的任务，不仅因为图像分割本身的挑战，而且还因为难以获得适当注释的数据。即使对于受过训练的人来说，准确地检测病变的边界也是具有挑战性的，因为对于许多病变，这些边界是模糊的和不明确的。使用来自ISIC档案的病变和注释，我们估计皮肤病变分割的注释器间协议，并提出几个简单的程序，如果用于调节地面事实，可能有助于改善注释器间的协议。

Query-efficient Meta Attack to Deep Neural Networks
Authors Jiawei Du, Hu Zhang, Joey Tianyi Zhou, Yi Yang, Jiashi Feng
最近，已经提出了几种针对黑匣子深度神经网络的对抗性攻击方法，它们是研究DNN安全问题的优秀试验台。这些方法通常从目标DNN模型中获取查询和相应的反馈，并相应地推断出合适的攻击模式。但是，由于缺乏利用查询信息的先验和低效率，这些方法主要是查询密集型的。在这项工作中，我们提出了一种元攻击策略，它能够以更少的查询攻击目标黑匣子模型。它的高查询效率来自先前对训练元攻击者的抽象，这可以加速搜索对抗性示例。对MNIST，CIFAR10和微型Imagenet进行的大量实验表明，我们的元攻击方法可以在不牺牲攻击性能的情况下显着减少模型查询的数量。此外，获得的元攻击者不限于特定模型，而是可以容易地重用，具有快速自适应能力来攻击各种模型。

Blockwise Based Detection of Local Defects
Authors Xiaoyu Xiang, Renee Jessome, Eric Maggard, Yousun Bang, Minki Cho, Jan Allebach
打印质量是打印机性能的重要标准。打印缺陷的检测，分类和评估可以反映打印机的工作状态，有助于定位内部的机械问题。为了处理所有这些问题，需要一种有效的算法来取代传统的视觉检查方法。在本文中，我们关注具有局部缺陷的页面，包括灰点和实点。我们提出了一种粗略到精细的方法来以块方式检测局部缺陷，并聚合块状属性以生成整个测试页面的特征向量以用于进一步的排序任务。在检测部分中，我们首先通过对单个特征进行阈值处理来选择候选区域。然后计算候选块的更详细特征并将其发送到先前在我们的训练数据集上训练的决策树。最终结果由决策树模型给出，以控制误报率，同时保持所需的未命中率。与以前的方法相比，我们的算法被证明在检测和分类局部缺陷方面是有效的。

Omnidirectional Scene Text Detection with Sequential-free Box Discretization
Authors Yuliang Liu, Sheng Zhang, Lianwen Jin, Lele Xie, Yaqiang Wu, Zhepeng Wang
野外的场景文本通常具有高变异特征。使用四边形边界框来定位文本实例对于检测方法几乎是必不可少的。然而，最近的研究表明，引入用于场景文本检测的四边形边界框会带来容易被忽视的标签混淆问题，这个问题可能会严重破坏检测性能。为了解决这个问题，在本文中，我们提出了一种称为顺序自由盒离散SBD的新方法，通过将边界框离散化为关键边缘KE，可以进一步推导出更有效的方法来提高检测性能。实验表明，该方法在许多流行的场景文本基准测试中可以胜过最先进的方法，包括ICDAR 2015，MLT和MSRA TD500。消融研究还表明，简单地将SBD整合到Mask R CNN框架中，可以显着提高检测性能。此外，对一般目标数据集HRSC2016多向船舶的实验表明，我们的方法可以大大超越现有技术方法，展示了其强大的泛化能力。

Context-Aware Visual Policy Network for Fine-Grained Image Captioning
Authors Zheng Jun Zha, Daqing Liu, Hanwang Zhang, Yongdong Zhang, Feng Wu
随着视觉检测技术的成熟，我们更加雄心勃勃地用开放式词汇，细粒度和自由形式语言描述视觉内容，即图像字幕的任务。特别是，我们有兴趣生成更长，更丰富，更细粒度的句子和段落作为图像描述。在给定视觉内容的情况下，图像字幕可以被转换为顺序语言预测的任务，其中输出序列形成具有合理语法的自然语言描述。然而，现有的图像字幕方法仅关注语言策略而不是视觉策略，因此不能捕获对于诸如对象关系（例如，骑马和视觉比较例如小猫）的组合推理至关重要的视觉上下文。生成较长的序列（例如段落）时，此问题尤为严重。为了填补空白，我们提出了一个Context Aware Visual Policy网络CAVP，用于细粒度图像到语言生成图像句子字幕和图像段落字幕。在字幕制作期间，CAVP明确地将先前的视觉注意力视为上下文，并在给定当前视觉注意力的情况下决定上下文是否用于当前的单词句子生成。与仅在每一步修复单个视觉区域的传统视觉注意机制相比，CAVP可以随时间关注复杂的视觉组合。整个图像字幕模型CAVP及其后续的语言策略网络可以通过使用演员评论政策梯度方法进行端到端的有效优化。我们通过MSCOCO和斯坦福字幕数据集的最新表现，使用各种度量和定性视觉上下文的合理可视化，证明了CAVP的有效性。

MNIST-C: A Robustness Benchmark for Computer Vision
Authors Norman Mu, Justin Gilmer
我们介绍了MNIST C数据集，这是一套应用于MNIST测试集的15个损坏的综合套件，用于对计算机视觉中的分布稳健性进行基准测试。通过几次实验和可视化，我们证明了我们的腐败显着降低了现有技术计算机视觉模型的性能，同时保留了测试图像的语义内容。与流行的对抗性稳健性概念相反，我们的模型不可知腐败并不是寻求最坏的情况，而是设计为广泛和多样化，捕捉现代模型的多种失效模式。事实上，我们发现一些先前公布的对抗性防御措施显着降低了MNIST C测量的稳健性。我们希望我们的基准测试可以作为未来设计系统的有用工具，这些系统能够学习能够捕获基本语义的强大特征表示的系统。输入。

OutdoorSent: Can Semantic Features Help Deep Learning in Sentiment Analysis of Outdoor Images?
Authors Wyverson B. de Oliveira, Leyza B. Dorini, Rodrigo Minetto, Thiago H. Silva
例如，用户在日常或休闲活动中发布的室外图像中的意见挖掘可以提供有价值的信息以更好地理解城市区域。在这项工作中，我们提出了一个框架，用于对用户在社交网络上共享的户外图像的情感进行分类。我们比较了最先进的ConvNet架构的性能，即VGG 16，Resnet50和InceptionV3，以及专为情绪分析而设计的架构。还考虑了这种分类器的组合，称为集合的策略。我们还使用不同的实验设置来评估从场景属性导出的深度特征和语义信息的合并如何可以提高分类性能。评估探索了一个新的数据集，即OutdoorSent，从Instagram提取的地理化城市户外图像，与三种情绪极性正面，负面和中性相关，以及另一个公开可用的DeepSent数据集。我们观察到，与语义特征相关的知识的结合倾向于提高低复杂ConvNet架构的准确性。此外，我们还证明了我们的结果在美国芝加哥市的适用性，表明它们可以帮助理解城市不同区域的主观特征。例如，城市的特定区域倾向于集中更多特定情绪类型的图像。 ConvNet架构，训练模型和拟议的室外图像数据集将在以下网站公开发布

Progressive NAPSAC: sampling from gradually growing neighborhoods
Authors Daniel Barath, Maksym Ivashechkin, Jiri Matas
我们提出了Progressive NAPSAC，简称P NAPSAC，它通过从逐渐增长的社区抽取样本来合并本地和全球抽样的优势。利用邻近点更可能源自相同几何模型的事实，P NAPSAC比全局采样器更早地找到局部结构。我们证明了P NAPSAC中的渐进空间采样可以与PROSAC采样相结合，PROSAC采样应用于第一个位置定义点。 P NAPSAC嵌入在USAC中，这是一种先进的稳健估计流水线，我们通过在Graph Cut RANSAC中实现其局部优化来进一步改进。我们称之为结果估算器USAC。该方法在七个公开可用数据集的总共10,691个模型上进行单应性和基本矩阵拟合测试。带有P NAPSAC的USAC在速度方面优于所有问题的参考方法。

Progressive-X: Efficient, Anytime, Multi-Model Fitting Algorithm
Authors Daniel Barath, Jiri Matas
提出了渐进X算法，简称Prog X，用于几何多模型拟合。该方法通过重复假设提议，快速拒绝以及通过标记能量最小化将新假设集成到保持的实例集中来交叉当前数据解释的采样和合并。由于逐步探索数据，该方法与现有技术相比具有几个有益的性质。首先，当发现具有合理数量的内点的新模型的概率低于阈值时，从RANSAC采用的明确标准控制终止并停止算法。其次，Prog X是一种随时可用的算法。因此，每当被中断时，例如，由于时间限制，返回的实例覆盖真实的，可能是最主要的实例。就合成实验和公共可用的单应性，双视图运动和运动分割的现实世界数据集而言，该方法在准确性方面优于现有技术。

Learning Shape Representation on Sparse Point Clouds for Volumetric Image Segmentation
Authors Fabian Balsiger, Yannick Soom, Olivier Scheidegger, Mauricio Reyes
使用卷积神经网络进行体积图像分割CNN遇到了一些特定于医学图像的挑战。这些挑战包括大量的兴趣，高级别的不平衡以及学习形状表示的困难。为了应对这些挑战，我们建议通过点云的点式分类来改进传统的基于CNN的体积图像分割。点云的稀疏性允许处理整个图像体积，平衡高度不平衡的分割问题，并明确地学习解剖学形状。我们建立在PointCNN上，这是一个用于处理点云的神经网络，并在此提出以紧凑和计算有效的方式联合编码点云内的形状和体积信息。我们演示了如何使用这种方法来改进基于CNN的分割，这在我们对来自磁共振神经成像的周围神经分割的困难任务的实验中产生显着改善的结果。通过综合实验，我们进一步展示了我们的方法在学习明确的解剖形状表示方面的能力。

Lightweight Real-time Makeup Try-on in Mobile Browsers with Tiny CNN Models for Facial Tracking
Authors TianXing Li, Zhi Yu, Brendan Duke, Edmund Phung, Irina Kezele, Parham Aarabi
最近关于卷积神经网络CNN用于面部对齐的工作已经在各种大型公开数据集上展示了前所未有的准确性。然而，所开发的模型通常既麻烦且计算上昂贵，并且不适用于资源受限设备上的应用。在这项工作中，我们研究开发和训练紧凑的面部对齐模型，其具有快速推理速度和小的部署尺寸，使其适用于上述类别的设备上的应用。我们的主要贡献在于设计这样的小型模型，同时保持面部对齐的高精度。我们提出的模型利用适应面部对齐问题的轻CNN架构，从低分辨率输出热图到面部地标坐标的精确两阶段预测。我们进一步将开发的面部跟踪器与渲染方法相结合，并在智能手机Web浏览器中运行客户端的演示构建实时化妆试验。我们准备了一个演示链接到我们的网络演示，可以在Android上的Chrome和Firefox或iOS上的Safari中进行测试

Butterfly Transform: An Efficient FFT Based Neural Architecture Design
Authors Keivan Alizadeh, Ali Farhadi, Mohammad Rastegari
在本文中，我们介绍了蝴蝶变换BFT，这是一种轻量级信道融合方法，可以降低从传统解决方案的O n 2到O n log n的点式卷积的计算复杂度，相对于信道数量，同时提高精度FLOPs范围相同的网络。所提出的BFT以在训练时学习其参数的方式推广离散傅立叶变换。我们的实验评估表明，用sys替换通道融合模块可以在各种网络架构的类似FLOP上获得显着的精度提升。例如，用BFT替换信道融合卷积为MobileNetV1 0.25提供3个绝对前1的改进，为ShuffleNet V2 0.5提供2.5，同时保持相同数量的FLOPS。值得注意的是，ShuffleNet V2 BFT优于最先进的架构搜索方法MNasNet引用tan2018mnasnet和FBNet引用wu2018fbnet。我们还表明，BFT强加的结构具有有趣的属性，可确保最终网络的功效。

Adaptation Across Extreme Variations using Unlabeled Domain Bridges
Authors Shuyang Dai, Kihyuk Sohn, Yi Hsuan Tsai, Lawrence Carin, Manmohan Chandraker
我们解决了无监督的域适应问题，由于域内和域内变化的许多因素，标记的源和未标记的目标域之间的域差异很大。虽然通过减少域差异已经实现了深域适配方法，但是当域非常不相似时，这些方法很难应用。在这项工作中，我们建议通过引入连接源域和目标域的未标记桥接域，将域差异分解为多个但更小，从而更容易最小化差异。我们通过扩展具有多个鉴别器的域对抗神经网络来实现我们的建议，每个鉴别器都可以减少未标记桥，目标域和所有先前域（包括源）的混合之间的差异。我们验证了我们的方法在几个适应任务上的有效性，包括对象识别和语义分割。

Nail Polish Try-On: Realtime Semantic Segmentation of Small Objects for Native and Browser Smartphone AR Applications
Authors Brendan Duke, Abdalla Ahmed, Edmund Phung, Irina Kezele, Parham Aarabi
我们提供了一个用于小对象语义分割的系统，使得指甲油可以在AR应用程序上尝试在本机和Web移动应用程序中实时运行客户端。通过调整输入分辨率和神经网络深度，我们的模型设计可以实现性能和运行时间的平滑折衷，最高性能设置在iPad Pro上的原生应用程序中在29.8ms运行时达到94.5 mIoU。我们还提供了一种用于指甲油试验的后处理和渲染算法，它与我们的语义分割和指甲基尖方向预测相结合。

Two-Stream Region Convolutional 3D Network for Temporal Activity Detection
Authors Huijuan Xu, Abir Das, Kate Saenko
我们解决了连续的，未修剪的视频流中的时间活动检测问题。这是一项艰巨的任务，需要提取有意义的空间时间特征来捕获活动，准确地定位每个活动的开始和结束时间。我们引入了一个新模型，即区域卷积3D网络R C3D，它使用三维完全卷积网络对视频流进行编码，然后生成包含活动的候选时间区域，最后将所选区域分类为特定活动。由于在提案和分类管道之间共享卷积特征，因此节省了计算。我们通过有效地将基于光流的运动流与原始RGB流集成来进一步提高检测性能。通过融合不同级别的流和RGB特征映射来联合优化两个流网络。此外，培训阶段包含在线硬件示例挖掘策略，以解决通常在任何检测管道中观察到的极端前景背景不平衡。我们不是对最终活动分类阶段的候选区段进行启发式抽样，而是根据它们的表现对它们进行排名，并且只选择表现最差的人来更新模型。这改进了模型而没有重度超参数调整。对三个基准数据集进行了大量实验，以显示优于现有时间活动检测方法的性能。我们的模型在THUMOS 14和Charades数据集上实现了最先进的结果。我们进一步证明了我们的模型是一个通用的时间活动检测框架，它不依赖于关于特定数据集属性的假设，而是通过评估我们对ActivityNet数据集的方法。

A Natural Language-Inspired Multi-label Video Streaming Traffic Classification Method Based on Deep Neural Networks
Authors Yan Shi, Dezhi Feng, Subir Biswas
本文提出了一种基于深度学习的流量分类方法，用于在加密隧道内同时识别多个流视频源。该作品定义了一个受自然语言处理NLP启发的新特征，它允许现有的NLP技术帮助进行流量分类。描述了特征提取方法，并且创建了包含视频流和网络流量的大型数据集以验证其有效性。通过应用几种NLP方法获得结果，以表明所提出的方法在二元和多标记流量分类问题上都表现良好。我们还展示了使用所提出的方法实现零射击学习的能力。

Improving Robustness Without Sacrificing Accuracy with Patch Gaussian Augmentation
Authors Raphael Gontijo Lopes, Dong Yin, Ben Poole, Justin Gilmer, Ekin D. Cubuk
在现实世界中部署机器学习系统需要对清洁数据的高精度和对自然发生的损坏的鲁棒性。虽然架构方面的进步提高了准确性，但构建强大的模型仍然具有挑之前的工作认为，鲁棒性和准确性之间存在固有的折衷，例如标准数据增强技术（如Cutout）可提高清洁精度但不提高鲁棒性，加性高斯噪声可提高稳健性但会损害精度。为了克服这种折衷，我们引入了Patch Gaussian，这是一种简单的增强方案，可以为输入图像中随机选择的补丁添加噪声。使用Patch Gaussian训练的模型在CIFAR 10和ImageNetCommon Corruptions基准测试中实现了最新技术水平，同时还提高了清洁数据的准确性。我们发现这种增强导致对高斯噪声的敏感度降低，类似于高斯噪声，同时保留了利用图像中类似于切口的相关高频信息的能力。最后，我们证明Patch Gaussian可以与其他正则化方法和数据增强策略（如AutoAugment）结合使用，并提高COCO对象检测基准的性能。

On the Effectiveness of Laser Speckle Contrast Imaging and Deep Neural Networks for Detecting Known and Unknown Fingerprint Presentation Attacks
Authors Hengameh Mirzaalian, Mohamed Hussein, Wael Abd Almageed
指纹呈现攻击检测由于攻击技术的不断进步，FPAD正成为一个越来越具有挑战性的问题，这些技术可生成逼真的假指纹呈现。最近，激光散斑对比成像LSCI已被引入作为FPAD的新感测模式。 LSCI具有捕获皮肤表面下的血流的有趣特征。为了研究LSCI对FPAD的重要性和有效性，我们使用不同的基于补丁的深度神经网络架构进行了全面的研究。我们研究的架构包括2D和3D卷积网络以及使用长期短期内存LSTM单元的循环网络。该研究表明，使用LSCI可以实现强大的FPAD性能。我们在新的大型数据集上评估不同的模型。该数据集包括3743个真实样本，从335个独特主题中收集，以及218个呈现攻击样本，包括六种不同类型的攻击。为了检查更改培训和测试集的效果，我们进行了3次交叉验证评估。为了检查存在看不见的攻击的影响，我们应用了一个留出一个攻击策略。网络的FPAD分类结果是针对时间和空间补丁大小单独优化和调整的，表明LSTM实现了最佳性能。

An Information-Theoretical Approach to the Information Capacity and Cost-Effectiveness Evaluation of Color Palettes
Authors R.Tanju Sirmen, B. Burak Ustundag
颜色被用作表示和传递信息的有效工具。调色板中的颜色数量是信息传递能力的直接仲裁者。然而，它应该得到很好的阐述，因为通过添加颜色来增加熵会带来解码成本。尽管可能对各种应用产生影响，但调色板成本效益评估方法似乎不足。在这项工作中，通过明确的指标和公式，从信息理论的角度来解决这一需求。此外，针对一些已开发和已知的调色板计算所提出的度量，并且评估观察到的结果。

Hierarchical Bayesian myocardial perfusion quantification
Authors Cian M. Scannell, Amedeo Chiribiri, Adriana D.M. Villa, Marcel Breeuwer, Jack Lee
目的示踪剂动力学模型可用于对比增强MRI数据的定量评估。然而，由于获得的数据有限且噪声水平高，模型拟合可能产生不可靠的结果。这些问题在心肌灌注MRI中尤其普遍，导致受约束的数值去卷积的折衷，并且节段信号平均通常用作更复杂的示踪动力学模型的替代。方法在这项工作中，探索了分层贝叶斯推理在参数估计中的应用。结果表明，利用贝叶斯推断，可以将两室交换模型可靠地拟合到灌注数据中。与传统最小二乘方法相比，使用关于动力学参数范围的先验知识以及相邻体素可能具有相似动力学特性以及基于马尔可夫链蒙特卡罗的拟合程序的事实显着提高了灌注估计的可靠性。。使用模拟和患者数据评估该方法。结果模拟体模的不同噪声实现的平均标准偏差归一化均方误差从最小二乘拟合的0.32±0.55下降到使用贝叶斯推断的0.13±0.2。纯粹基于使用贝叶斯推断获得的定量MBF图对冠状动脉疾病的存在的评估与所有24个切片中的视觉评估相匹配。当使用通过最小二乘拟合获得的地图时，仅在16 24个切片中实现相应的评估。结论贝叶斯推断允许使用两室交换模型在体素水平上对心肌灌注进行可靠，完全自动化和用户独立评估。

Cross-Modal Interaction Networks for Query-Based Moment Retrieval in Videos
Authors Zhu Zhang, Zhijie Lin, Zhou Zhao, Zhenxin Xiao
基于查询的时刻检索旨在根据给定的自然语言查询来定位未修剪视频中的最相关时刻。现有工作通常只关注这一新兴任务的一个方面，例如查询表示学习，视频上下文建模或多模态融合，因此无法开发用于进一步提高性能的综合系统。在本文中，我们引入了一个新的交叉模态交互网络CMIN来考虑这个具有挑战性的任务的多个关键因素，包括1自然语言查询的句法结构2视频上下文中的长距离语义依赖性和3充分的交叉模态交互。具体来说，我们设计了一个语法GCN来利用查询的句法结构进行细粒度表示学习，提出多头自我关注以从视频上下文中捕获长程语义依赖，然后采用多阶段交叉模态交互来探索潜在关系视频和查询内容。大量实验证明了我们提出的方法的有效性。

Occluded Face Recognition Using Low-rank Regression with Generalized Gradient Direction
Authors Cho Ying Wu, Jian Jiun Ding
本文提出了一种解决连续人脸遮挡识别问题的非常有效的方法。它利用鲁棒的图像梯度方向特征和各种映射函数，并采用分层稀疏和低秩回归模型。该模型将字典学习中的稀疏表示与错误项中的低秩表示相结合，该错误项在梯度域中通常是杂乱的。我们将其称为弱弱秩优化问题，可以通过乘法器交替方向ADMM的框架有效地解决。误差项的最优值具有与参考误差图类似的弱弱等级结构，并且使用弱低秩优化可以通过突飞猛进来增强识别性能。对现实世界的伪装遮挡数据和合成的连续遮挡数据进行了广泛的实验。这些实验表明，与现有技术方法相比，所提出的基于梯度方向的分层自适应稀疏和低秩GD HASLR算法具有最佳性能，包括基于流行的基于卷积神经网络的方法。

Salient Building Outline Enhancement and Extraction Using Iterative L0 Smoothing and Line Enhancing
Authors Cho Ying Wu, Ulrich Neumann
在本文中，我们的目标是使用L0平滑从用户相机拍摄的图像中提取建筑轮廓增强和提取。我们解决了弱轮廓和平滑问题。边缘提取器通常不会检测到弱轮廓或容易平滑。我们提出了一种迭代方法，包括平滑单元和锐化单元。在平滑单元中，我们迭代地放大L0平滑的平滑等级。在锐化单元格中，我们使用Hough变换来提取线条，这是基于建筑物的突出轮廓通常是直线的假设，并增强那些提取的线条。我们的目标是增强线结构并同时进行L0平滑。此外，我们建议使用编码器解码器网络从语义分割创建建筑物掩模。掩模过滤掉不相关的边缘。我们还提供有关此任务的评估数据集。

Uncertainty-guided Continual Learning with Bayesian Neural Networks
Authors Sayna Ebrahimi, Mohamed Elhoseiny, Trevor Darrell, Marcus Rohrbach
持续学习旨在学习新任务而不忘记以前学过的任务。当人们无法访问先前任务中的数据以及模型具有固定容量时，这尤其具有挑战性。基于当前正则化的连续学习算法需要外部表示和额外计算来测量参数重要性。相反，我们提出了不确定性引导的连续贝叶斯神经网络UCB，其中学习速率根据网络中权重的概率分布中定义的不确定性进行调整。不确定性是一种自然的方式，可以在我们不断学习时识别要记住的内容和要改变的内容，从而减轻灾难性的遗忘。我们还展示了我们模型的一个变体，它使用不确定性进行重量修剪，并通过保存每个任务的二进制掩码来保留修剪后的任务性能。我们在具有短期和长期任务的各种对象分类数据集上广泛评估我们的UCB方法，并报告与现有方法相比优越或相当的性能。另外，我们表明我们的模型在测试时不一定需要任务信息，即它不会假设知道样本属于哪个任务。

Generative Model-Based Ischemic Stroke Lesion Segmentation
Authors Tao Song
CT灌注CTP由于其速度，可用性和缺乏禁忌症而被用于在早期对缺血性卒中患者进行分类。还可以从CTP数据计算灌注参数，包括脑血容量CBV，脑血流CBF，平均通过时间MTT和峰值Tmax的时间。然而，CTP数据或灌注参数对于定位梗塞核心或组织处于风险半影时是不明确的，这通常通过随后的扩散加权成像DWI或灌注扩散不匹配来确认。在本文中，我们提出了一种新的基于生成模型的分割框架，该框架由提取器，发生器和用于缺血性中风病变分割的分割器组成。首先，使用提取器直接从CTP特征图像中提取代表特征图像。其次，使用生成器来使用来自提取器和灌注参数的输出生成临床相关的DWI图像。最后，分割器用于使用来自发生器的生成的DWI精确地分割缺血性中风病变。同时，一种新的像素区域损失函数，广义骰子结合加权交叉熵，用于处理医学图像分割中常见的数据不平衡问题。使用2018年缺血性卒中病变分段挑战ISLES数据集从头开始对所有网络进行端到端训练，我们的方法在测试阶段的2018年缺血性卒中病变分割挑战中获得第一名。

Neural SDE: Stabilizing Neural ODE Networks with Stochastic Noise
Authors Xuanqing Liu, Tesi Xiao, Si Si, Qin Cao, Sanjiv Kumar, Cho Jui Hsieh
神经常微分方程神经ODE已被提出作为ResNet架构的连续近似。离散神经网络中一些常用的正则化机制，例如在当前的神经ODE网络中，丢失高斯噪声。在本文中，我们提出了一种新的连续神经网络框架，称为神经随机微分方程神经SDE网络，它自然地结合了各种常用的基于随机噪声注入的正则化机制。我们的框架可以模拟在离散网络中经常使用的各种类型的噪声注入，以用于正则化目的，例如每个块中的丢失和加法乘法噪声。我们提供理论分析，解释神经SDE模型对输入扰动对抗性攻击的改进鲁棒性。此外，我们证明神经SDE网络可以实现比神经ODE更好的泛化，并且更能抵抗对抗性和非对抗性输入扰动。

Anatomical Priors for Image Segmentation via Post-Processing with Denoising Autoencoders
Authors Agostina J. Larrazabal, Cesar Martinez, Enzo Ferrante
深度卷积神经网络CNN被证明对于医学图像的解剖学分割是高度准确的。然而，一些用于图像分割的最流行的CNN架构仍然依赖于后处理策略，例如，条件随机字段将连接约束合并到结果掩码中。这些后处理步骤基于对象通常是连续的假设，因此应该为附近的像素分配相同的对象标签。即使它是一般的有效假设，这些方法也没有提供直接的方法来结合更复杂的先验，如凸性或任意形状限制。在这项工作中，我们提出了Post DAE，一种基于去噪自动编码器的后处理方法DAE仅使用分段掩码进行训练。我们学习解剖学上可信的分割的低维空间，并将其用作后处理步骤，以对通过任意分割方法获得的所得掩模施加形状约束。我们的方法独立于图像模态和强度信息，因为它仅使用分割掩模进行训练。这使得能够使用不需要与强度图像配对的解剖学分割，使得该方法非常灵活。我们对X射线图像的解剖分割的实验结果表明，后DAE可以通过将它们带回可行空间，几乎没有额外的计算时间来改善通过各种标准方法获得的噪声和不正确分割掩模的质量。

Improving RetinaNet for CT Lesion Detection with Dense Masks from Weak RECIST Labels
Authors Martin Zlocha, Qi Dou, Ben Glocker
计算机断层扫描CT中准确，自动化的病变检测是一项重要但具有挑战性的任务，因为病变类型，大小，位置和外观的变化很大。最近关于CT病变检测的工作采用基于质心或边界框注释训练的两阶段区域建议方法。我们提出了一种高度准确和高效的单级病变检测器，通过重新设计RetinaNet来应对医学成像中的特殊挑战。具体来说，我们使用差分进化搜索算法优化锚点配置。对于培训，我们利用实体肿瘤RECIST注释中的响应评估标准，其在临床常规中测量。我们将来自使用GrabCut自动获得的弱RECIST标签的密集掩模纳入训练目标，与其他进步相结合，产生新的最先进性能。我们在公共DeepLesion基准测试中评估我们的方法，包括全身32,735个病灶。我们的单级检测器在每个图像4个误报的情况下实现了90.77的灵敏度，明显优于报告的最佳方法超过5个。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

在这里插入图片描述
pic from pexels.com