CVPR 2018:十大最酷论文

转载链接:https://zhuanlan.zhihu.com/p/39049009

 

Training Deep Networks with Synthetic Data: Bridging the Reality Gap by Domain Randomization

这篇论文来自英伟达,核心思想是用合成数据训练卷积神经网络(CNNs)。研究人员为Unreal Engine 4创造了一个插件,使其能够生成合成训练数据。其中的关键是他们将训练数据可能拥有的变量进行了随机化,包括:

  • 目标物体的数量和种类
  • 干扰项的数量、种类、颜色和规模
  • 目标物和背景照片的图案
  • 针对不同场景的虚拟摄像机的位置
  • 针对不同场景摄像机的角度
  • 点光源的数量和位置

研究人员展示了利用合成数据进行预训练后出色的效果和效率,达到了前所未有的水平。这也为没有重要数据来源时提供了一种思路,即生成并使用合成数据。

WESPE: Weakly Supervised Photo Enhancer for Digital Cameras

这篇非常精妙!研究人员训练了一个生成对抗网络(GAN),能够自动“修图”。最酷的部分是,它是弱监督的,你不需要有输入和输出的图像对!想要训练网络,你只需要拥有一套“好看”的图片和一套“粗糙”的图片,想进一步调整。之后,研究者会训练生成对抗网络,使其更符合审美,通常是改进色彩和图片的对比度。

这一模型非常简单并且能快速上手,你无需拥有成对的图片,最终会得到一个通用的图片增强器。我还喜欢这篇论文的一点是它是弱监督的方法,非监督学习看起来很遥远,但是对CV领域的许多子类来说,弱监督似乎是一个更可靠的方向。

Efficient Interactive Annotation of Segmentation Datasets with Polygon-RNN++

深度网络之所以能有巨大帮助,正是得益于大型的经过标注的数据集。但是对很多机器视觉任务来说,想获得这样的数据会很耗费时间并且成本高昂。特别是分割的数据需要对图片中的每个像素进行分类标注。所以对大型数据集来说,标注是永远都标不完的。

有了Polygon-RNN++,你可以在图中每个目标物体的周围大致圈出多边形形状,网络会自动生成分割的注释!论文中表明,这一方法的表现非常不错,并且能在分割任务中快速生成建议的标注。

Creating Capsule Wardrobes from Fashion Images

每天早上你是否都会面临“不知道穿什么衣服”的难题,现在“胶囊衣柜(Capsule Wardrobes)”来帮你了!在这篇论文中,作者设计了一款模型,给定线程的服装和首饰,模型能对各件单品进行组合,提供所有可能的混合搭配方案。事实上它是使用目标函数进行训练,这些目标函数只在捕捉视觉兼容性、多功能性和用户偏好等关键要素。有了胶囊衣柜,妈妈再也不用担心我穿错衣服啦!

SuperSloMo: High Quality Estimation of Multiple Intermediate Frames for Video Interpolation

这篇论文论智君曾专门报道过:《CVPR 2018:英伟达用深度学习实现任意视频的完美慢镜头回放》。这篇英伟达的论文讲述了用CNN估计视频中间帧,可以将标准的30fps视频转化成240fps的慢动作回放视频!模型估计了帧与帧之间的光流,并将它插入视频帧中间,让慢动作看起来更清晰流畅。

Who Let The Dogs Out? Modeling Dog Behavior From Visual Data

这个题目可能是最酷的了吧!这篇文章的研究方向是尝试对狗狗的思想和活动建模。作者在狗狗的四肢上安装了传感器,收集其运动时的数据;他们还在狗狗头上安装了摄像机,从而获得“狗狗视角下的画面”。为了从视频帧中提取图片特征,研究人员用到了CNN特征提取器,之后和传感器数据一起被传输到LSTM中,预测狗狗的行为。这一充满创造性的应用和任务搭建方法让这篇论文非常有可读性!希望这样的数据收集方法和深度学习技术的应用能激励未来的研究。

Learning to Segment Every Thing

Facebook人工智能研究专家何恺明的团队在过去几年做了太多CV方面的研究了,他们的论文一向以创新性和简洁性著称。ResNet和Mask R-CNN都算不上是最疯狂、最复杂的点子,虽然他们简洁易用,但在实际中非常高效。但这次却有所不同。

Learning to Segment Every Thing是Mask R-CNN的扩展,他可以让网络分割在训练时从未见过的目标物体!这对于快速获取数据集中的标签非常有帮助,同时成本也较低。它可以对从未见过的目标种类获取强大的基本分类,这对于实际应用这类分割网络是非常重要的,因为在这样的环境中可能有很多陌生种类。总的来说,这是大多数深度网络模型应该考虑的正确方向。

Soccer on Your Tabletop

正好在世界杯期间发表这篇论文,时机刚刚好。简单地说,论文作者训练了一个模型,给定足球比赛的视频后,模型可以输出一个动态3D重建比赛,也就是说你可以用AR技术随时随地查看比赛。

最巧妙的是,作者将不同种类的信息结合了起来。网络使用视频数据训练的,数据可以用3D网格提取。在测试时,运动员的边界框、姿势和轨迹都被提取出来,以进行分割。这些3D分割可以轻松投射到任意平面上。在我看来这也是用合成数据进行训练的好方法。

LayoutNet: Reconstruction the 3D Room Layout from a Single RGB Image

这种CV应用我们很多人可能都想到过:利用一个摄像机进行拍摄,然后用数字3D重建场景。这就是论文讨论的重点——3D重建房间。研究人员将全景图像当做输入,之后精确输出3D重建的图像。模型可以生成不同形状、含有不同家具的房间。

Learning Transferable Architectures for Scalable Image Recognition

最后是我认为未来深度学习发展方向的论文:神经架构搜索(NAS)。NAS背后的原理是,不手动设计网络结构,而是用另一个网络“搜寻”最佳模型结构。搜索会基于一个奖励函数,在验证集上函数会根据模型表现进行奖励。作者表示这种架构比手动设计的精确度更高,并且灵活性更好。

结语

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值