CVPR 2018：十大最酷论文

最新推荐文章于 2022-11-17 15:14:48 发布

This_is_alva

最新推荐文章于 2022-11-17 15:14:48 发布

阅读量470

点赞数 2

分类专栏： Deep learning

Deep learning 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

转载链接：https://zhuanlan.zhihu.com/p/39049009

Training Deep Networks with Synthetic Data: Bridging the Reality Gap by Domain Randomization

这篇论文来自英伟达，核心思想是用合成数据训练卷积神经网络（CNNs）。研究人员为Unreal Engine 4创造了一个插件，使其能够生成合成训练数据。其中的关键是他们将训练数据可能拥有的变量进行了随机化，包括：

目标物体的数量和种类
干扰项的数量、种类、颜色和规模
目标物和背景照片的图案
针对不同场景的虚拟摄像机的位置
针对不同场景摄像机的角度
点光源的数量和位置

研究人员展示了利用合成数据进行预训练后出色的效果和效率，达到了前所未有的水平。这也为没有重要数据来源时提供了一种思路，即生成并使用合成数据。

WESPE: Weakly Supervised Photo Enhancer for Digital Cameras

这篇非常精妙！研究人员训练了一个生成对抗网络（GAN），能够自动“修图”。最酷的部分是，它是弱监督的，你不需要有输入和输出的图像对！想要训练网络，你只需要拥有一套“好看”的图片和一套“粗糙”的图片，想进一步调整。之后，研究者会训练生成对抗网络，使其更符合审美，通常是改进色彩和图片的对比度。

这一模型非常简单并且能快速上手，你无需拥有成对的图片，最终会得到一个通用的图片增强器。我还喜欢这篇论文的一点是它是弱监督的方法，非监督学习看起来很遥远，但是对CV领域的许多子类来说，弱监督似乎是一个更可靠的方向。

Efficient Interactive Annotation of Segmentation Datasets with Polygon-RNN++

深度网络之所以能有巨大帮助，正是得益于大型的经过标注的数据集。但是对很多机器视觉任务来说，想获得这样的数据会很耗费时间并且成本高昂。特别是分割的数据需要对图片中的每个像素进行分类标注。所以对大型数据集来说，标注是永远都标不完的。

有了Polygon-RNN++，你可以在图中每个目标物体的周围大致圈出多边形形状，网络会自动生成分割的注释！论文中表明，这一方法的表现非常不错，并且能在分割任务中快速生成建议的标注。

Creating Capsule Wardrobes from Fashion Images

每天早上你是否都会面临“不知道穿什么衣服”的难题，现在“胶囊衣柜（Capsule Wardrobes）”来帮你了！在这篇论文中，作者设计了一款模型，给定线程的服装和首饰，模型能对各件单品进行组合，提供所有可能的混合搭配方案。事实上它是使用目标函数进行训练，这些目标函数只在捕捉视觉兼容性、多功能性和用户偏好等关键要素。有了胶囊衣柜，妈妈再也不用担心我穿错衣服啦！

SuperSloMo: High Quality Estimation of Multiple Intermediate Frames for Video Interpolation

这篇论文论智君曾专门报道过：《CVPR 2018：英伟达用深度学习实现任意视频的完美慢镜头回放》。这篇英伟达的论文讲述了用CNN估计视频中间帧，可以将标准的30fps视频转化成240fps的慢动作回放视频！模型估计了帧与帧之间的光流，并将它插入视频帧中间，让慢动作看起来更清晰流畅。

Who Let The Dogs Out? Modeling Dog Behavior From Visual Data

这个题目可能是最酷的了吧！这篇文章的研究方向是尝试对狗狗的思想和活动建模。作者在狗狗的四肢上安装了传感器，收集其运动时的数据；他们还在狗狗头上安装了摄像机，从而获得“狗狗视角下的画面”。为了从视频帧中提取图片特征，研究人员用到了CNN特征提取器，之后和传感器数据一起被传输到LSTM中，预测狗狗的行为。这一充满创造性的应用和任务搭建方法让这篇论文非常有可读性！希望这样的数据收集方法和深度学习技术的应用能激励未来的研究。

Learning to Segment Every Thing

Facebook人工智能研究专家何恺明的团队在过去几年做了太多CV方面的研究了，他们的论文一向以创新性和简洁性著称。ResNet和Mask R-CNN都算不上是最疯狂、最复杂的点子，虽然他们简洁易用，但在实际中非常高效。但这次却有所不同。

Learning to Segment Every Thing是Mask R-CNN的扩展，他可以让网络分割在训练时从未见过的目标物体！这对于快速获取数据集中的标签非常有帮助，同时成本也较低。它可以对从未见过的目标种类获取强大的基本分类，这对于实际应用这类分割网络是非常重要的，因为在这样的环境中可能有很多陌生种类。总的来说，这是大多数深度网络模型应该考虑的正确方向。

Soccer on Your Tabletop

正好在世界杯期间发表这篇论文，时机刚刚好。简单地说，论文作者训练了一个模型，给定足球比赛的视频后，模型可以输出一个动态3D重建比赛，也就是说你可以用AR技术随时随地查看比赛。

最巧妙的是，作者将不同种类的信息结合了起来。网络使用视频数据训练的，数据可以用3D网格提取。在测试时，运动员的边界框、姿势和轨迹都被提取出来，以进行分割。这些3D分割可以轻松投射到任意平面上。在我看来这也是用合成数据进行训练的好方法。

LayoutNet: Reconstruction the 3D Room Layout from a Single RGB Image

这种CV应用我们很多人可能都想到过：利用一个摄像机进行拍摄，然后用数字3D重建场景。这就是论文讨论的重点——3D重建房间。研究人员将全景图像当做输入，之后精确输出3D重建的图像。模型可以生成不同形状、含有不同家具的房间。

Learning Transferable Architectures for Scalable Image Recognition

最后是我认为未来深度学习发展方向的论文：神经架构搜索（NAS）。NAS背后的原理是，不手动设计网络结构，而是用另一个网络“搜寻”最佳模型结构。搜索会基于一个奖励函数，在验证集上函数会根据模型表现进行奖励。作者表示这种架构比手动设计的精确度更高，并且灵活性更好。

结语

This_is_alva

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
CVPR 2018：十大最酷论文

转载链接：https://zhuanlan.zhihu.com/p/39049009 Training Deep Networks with Synthetic Data: Bridging the Reality Gap by Domain Randomization这篇论文来自英伟达，核心思想是用合成数据训练卷积神经网络（CNNs）。研究人员为Unreal Engine 4创造了一...
复制链接

扫一扫

专栏目录