Github大盘点!2021年最惊艳的38篇AI论文

来源丨新智元

编辑丨极市平台

导读

 

2021年是人工智能继续突飞猛进的一年。近日,Github上有人总结出了今年最有趣、最惊艳的38篇关于AI和机器学习论文,值得收藏。

1、Zero-Shot Text-to-Image Generation

https://arxiv.org/pdf/2102.12092.pdf

f4a239c30799d82606a387ac37e40e48.png

文本到图像的生成传统上侧重于为固定数据集的训练寻找更好的建模假设。本文描述了一种基于Transformer的简单方法来完成此任务,将文本和图像标记自回归建模为单个数据流。凭借足够的数据和规模,当以零样本方式进行评估时,我们的方法与以前的特定领域模型相比具有竞争力。

2、VOGUE: Try-On by StyleGAN Interpolation Optimization

https://vogue-try-on.github.io/static_files/resources/VOGUE-virtual-try-on.pdf

27ccc248f625bcda1a54fab1e30042a0.png

给定目标人物的图像和穿着服装的另一个人的图像,我们会自动生成给定服装中的目标人物。我们方法的核心是姿势条件 StyleGAN2 潜在空间插值,它无缝地结合了每个图像的兴趣区域,即体型、头发和肤色来自目标人物,而带有褶皱的服装 、材料属性和形状来自服装图像。

3、Taming Transformers for High-Resolution Image Synthesis

https://compvis.github.io/taming-transformers/

cd56e219ffd7e2927d09ab47ac115c85.png

本文将 GAN 和卷积方法的效率与Transformer的表达能力相结合,为语义引导的高质量图像合成提供了一种强大且省时的方法。

4、Thinking Fast And Slow in AI 

https://arxiv.org/abs/2010.06002

795066046fa2207671cf59071de189e1.png

本文从人类能力中汲取灵感,提出了走向更通用和更值得信赖的人工智能(AGI)和人工智能研究社区的 10 个问题。

5、Automatic detection and quantification of floating marine macro-litter in aerial images

https://doi.org/10.1016/j.envpol.2021.116490

ebb5c2824441b4aad4e5af471b341d98.png

来自巴塞罗那大学的研究人员开发了一种基于深度学习的算法,能够从航拍图像中检测和量化漂浮的垃圾。他们还制作了一个面向网络的应用程序,允许用户在海面图像中识别这些垃圾。

6、ShaRF: Shape-conditioned Radiance Fields from a Single View

https://arxiv.org/abs/2102.08860

258418d13cd23dae29e2c20ba19f55ab.png

试想一下,如果只拍摄对象的照片并将其以 3D 格式插入到您正在创建的电影或视频游戏中,或者插入到 3D 场景中进行插图,那该有多酷。

7、Generative Adversarial Transformers

https://arxiv.org/pdf/2103.01209.pdf

192307d88e25651dcdd0da30be5d67d2.png

本文利用了强大的 StyleGAN2 架构中Transformer的注意力机制,使其更加强大!

8、We Asked Artificial Intelligence to Create Dating Profiles. Would You Swipe Right? 

https://studyonline.unsw.edu.au/blog/ai-generated-dating-profile

1f4701ee02b9192eb082043fd4802303.png

你会在 AI 的个人资料页面上仔细查看吗?你能区分真人与机器吗?这项研究揭示了在约会应用程序上使用AI,会发生什么事情。

9、Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

https://arxiv.org/abs/2103.14030v1

8664940cca49915dad0baf311b48ab9f.png

Transformers 会取代计算机视觉中的 CNN 吗?在不到 5 分钟的时间内,你就可以通过这篇关于 Swin Transformer 的新论文,了解如何将 Transformer 架构应用于计算机视觉任务。

10、IMAGE GANS MEET DIFFERENTIABLE RENDERING FOR INVERSE GRAPHICS AND INTERPRETABLE 3D NEURAL RENDERING

https://arxiv.org/pdf/2010.09125.pdf

f78acc380ee5a45f8618c2ac019f2d68.png

本文提出了名为 GANverse3D 的模型,只需要一张图像,就可以创建可以自定义和动画的 3D 图像。

11、Deep nets: What have they ever done for vision?

https://arxiv.org/abs/1805.04025

0a737e77defdefb5cfd46854cbdf2304.png

本文将公开分享有关用于视觉应用的深度网络、它的成功之处,以及我们必须解决的局限性等一切内容。

12、Infinite Nature: Perpetual View Generation of Natural Scenes from a Single Image 

https://arxiv.org/pdf/2012.09855.pdf

910e41a872f59a9028d49f3a856434a6.png

视图合成的下一步,就是永久视图生成,目标是创造出一张能够飞入其中的图片,还能在图像内的美景进行探索!

13、Portable, Self-Contained Neuroprosthetic Hand with Deep Learning-Based Finger Control

https://arxiv.org/abs/2103.13452

c5c327421eaa8e45ddc751f016c96b34.png

本文提出了一种由人工智能驱动的神经接口,截肢患者可以以栩栩如生的灵巧和直觉来控制神经假肢。

14、Total Relighting: Learning to Relight Portraits for Background Replacement 

https://augmentedperception.github.io/total_relighting/total_relighting_paper.pdf

a5628e8318637d0a13afd77e3c38feec.png

你有没有想过改变图片的背景,但让它看起来很逼真?这并不简单。你不能只是在家里拍一张自己的照片,然后换成海滩背景。图片看起来会很假,任何人都会马上看出「这是PS的」。本文提出的方法可能会完美解决这个问题。

15、LASR: Learning Articulated Shape Reconstruction from a Monocular Video 

https://openaccess.thecvf.com/content/CVPR2021/papers/Yang_LASR_Learning_Articulated_Shape_Reconstruction_From_a_Monocular_Video_CVPR_2021_paper.pdf

30889b1c136f2115592d6b3e387d878e.png

本文提出一种方法,可以仅以短视频作为输入,生成人类或动物移动的 3D 模型。事实上,模型实际上明白,生成的目标是一个奇怪的形状,可以移动,但仍然需要和原视频保持附着,因为这仍然是「一个目标」,而不仅仅是多目标的集合。

16、Enhancing Photorealism Enhancement 

http://vladlen.info/papers/EPE.pdf

9b7674672d37a6e6c002c61b766db395.png

本文中,英特尔的研究人员提出一个 AI模型,可实时应用于视频游戏,并让每一帧图像看起来更自然。

如果你认为这「只是另一个 GAN」,将视频游戏的图片作为输入,并按照自然世界的风格对其进行修改,其实并非如此。你可以在游戏图形上花费更少的精力,使其稳定和完整,然后使用此模型改进图形风格。

17、DefakeHop: A Light-Weight High-Performance Deepfake Detector

https://arxiv.org/abs/2103.06929

79754945dd538191112dc463c2b0214e.png

如何在 2021 年准确识别Deepfake假视频?这篇新论文可能会提供答案。可能是「再次使用人工智能」。以后,「眼见为实」可能很快就会变成「AI说真才是真」。

18、High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network

https://arxiv.org/pdf/2105.09188.pdf

e8f66c58abf039c71d4067784256aabd.png

本文提出一种基于机器学习的新方法,实时将任何样式的图像翻译成指定风格的 4K 图像!

19、Barbershop: GAN-based Image Compositing using Segmentation Masks 

https://arxiv.org/pdf/2106.01505.pdf

22e0d72f3e522d969c26bf9f58133132.png

这篇文章本身并不是一项新技术,而是关于 GAN 的一个令人兴奋的新应用。这个 AI 可以改变你的发型,看看改变前后的对比吧。

20、TextStyleBrush: Transfer of text aesthetics from a single example 

https://arxiv.org/abs/2106.08385

9af2117a12deca35c508201d49d176db.png

2021年,在异国旅行的你走进一家餐馆,面对看不懂的菜单,你甚至不需要打开谷歌翻译,只要简单地使用 Facebook AI 的这篇文章中的新模型,就可以翻译菜单图像中的每个文字。

21、Animating Pictures with Eulerian Motion Fields

https://arxiv.org/abs/2011.15128

bc93364c5c425549462837edb24d3d26.png

本文中的AI模型拍摄一张照片,了解哪些粒子应该在移动,并将图片转换为无限循环的动画,同时完全保留图片的其余部分,创建出逼真的视频。

22、CVPR 2021最佳论文奖: GIRAFFE - Controllable Image Generation 

http://www.cvlibs.net/publications/Niemeyer2021CVPR.pdf

463b140f03d79791d7dbf30ddb264680.png

本文使用修改后的 GAN 架构,可以在不影响背景或其他目标的情况下移动图像中的目标。

23、GitHub Copilot & Codex: Evaluating Large Language Models Trained on Code

https://arxiv.org/pdf/2107.03374.pdf

f40051db7fc56f78f30cd6dd90c201c3.png

OpenAI 的这个新模型,可以从单词生成代码。

24、Apple: Recognizing People in Photos Through Private On-Device Machine Learning 

https://machinelearning.apple.com/research/recognizing-people-photos

419a3ab015faadc5d91c6c322f803548.png

苹果使用在您的设备上多种基于机器学习的算法,让用户在 iOS 15 上实现准确规划和组织自己的图像和视频。

25、Image Synthesis and Editing with Stochastic Differential Equations

https://arxiv.org/pdf/2108.01073.pdf

2f798079b45465365e716b0efbd3bfb1.png

是时候告别复杂的 GAN 和用于图像生成的Transformer架构了!来自斯坦福大学和卡内基梅隆大学的研究人员可以从任何基于用户的输入中生成新图像。即使是毫无艺术基础的人,现在也可以从草图中生成漂亮的图像。

26、Sketch Your Own GAN

https://arxiv.org/abs/2108.02774

6eec1c957b54530150e0ab0fac8fcc5a.png

通过按照草图生成图像,让每个人都可以更轻松地进行 GAN 训练!事实上,借助这种新方法,您可以根据最简单的知识类型来控制 GAN 的输出:手绘草图。

27、Tesla's Autopilot Explained

https://www.louisbouchard.ai/tesla-autopilot-explained-tesla-ai-day/

61e681786b63fa1b47d8f11216a601ce.png

本文中,特斯拉人工智能总监安德烈·卡帕西等人展示了特斯拉的自动驾驶系统是如何通过他们的八个摄像头采集图像,实现道路上导航。

28、Styleclip: Text-driven manipulation of StyleGAN imagery

https://arxiv.org/abs/2103.17249

d2cccbd21a3c1cac0f725fec6547a7b1.png

AI 可以生成图像,通过反复试验,研究人员可以按照特定的样式控制生成结果。现在,有了这个新模型,只使用文本就能做到这一点!

29、Time Lens: Event-based Video Frame Interpolation

http://rpg.ifi.uzh.ch/docs/CVPR21_Gehrig.pdf

9db94702794851b42904636223d3d860.png

TimeLens 模型可以理解视频帧之间的粒子运动,以人眼无法捕捉的速度重建视频。事实上,本文中的模型效果达到了目前智能手机都无法达到的效果。

30、Diverse Generation from a Single Video Made Possible

https://arxiv.org/abs/2109.08591

7daf1cb1d819bee4cf123e493eac4211.png

你有没有想过编辑视频?比如删除或添加某人、更改背景、更改分辨率以适应特定的纵横比,无需对原视频进行压缩或拉伸它。本文中的这项新研究。可以帮助你在单个视频中以高清格式完成所有这些工作。

31、Skillful Precipitation Nowcasting using Deep Generative Models of Radar 

https://www.nature.com/articles/s41586-021-03854-z

06aeb4cff296a1acab21a91d12b05a58.png

DeepMind 刚刚发布了一个生成模型,能够在 89% 的情况下优于广泛使用的临近预报方法,其准确性和实用性通过了 50 多位气象学家的评估!这个模型专注于预测未来 2 小时内的降水,实现效果出奇地好。

32、The Cocktail Fork Problem: Three-Stem Audio Separation for Real-World Soundtracks

https://arxiv.org/pdf/2110.09958.pdf

6eb03270007c9f18c8de87b955c0b873.png

你是否曾在收看视频或电视节目时完全听不见演员的声音,或者音乐太大声?嗯,这个问题可能永远不会再发生了。三菱和印第安纳大学刚刚发布了一个新模型和一个新数据集,用于识别并处理关于视频配乐声音的问题。

33、ADOP: Approximate Differentiable One-Pixel Point Rendering

https://arxiv.org/pdf/2110.06635.pdf

32401bc5dbe9838fe8637e18a5c054ac.png

想象一下,从拍摄的一堆照片中生成一个 3D 模型或一段简单流畅的视频。现在,这个目标可以实现了。

34、(Style)CLIPDraw: Coupling Content and Style in Text-to-Drawing Synthesis

https://arxiv.org/abs/2111.03133

7b15e82fa76296585bb7732788b0452c.png

只需要拍一张你要复制样式的图片,再输入你要生成的文字,本文中的算法就会自动生成一张新的图片。

35、SwinIR: Image restoration using swin transformer

https://arxiv.org/abs/2108.10257

1957ad6d870d61e3d4bd8057ebe192c4.png

您是否曾经拍下过非常喜欢的图像,但现在只有一张小图了?如果能把它的清晰度提高四到八倍该有多好。本文中的方法可以将图像的分辨率提高4倍,使其看起来更加平滑。而且可以在几秒钟内自动完成,几乎适用于任何图像。

36、EditGAN: High-Precision Semantic Image Editing 

https://arxiv.org/abs/2111.03186

88194cfa73016c3021ad4bd93bfa4e55.png

本文中的图像编辑工具可以从草稿中控制任何特征,只会编辑你想要的内容,保持图像的其余部分不变。这是一款NVIDIA、MIT 和 UofT 提出的基于 GAN 的草图模型的 SOTA 图像编辑工具。

37、CityNeRF: Building NeRF at City Scale

https://arxiv.org/pdf/2112.05504.pdf

c50942a1f074daf46c18be7dd7ca6879.png

本文中的模型称为 CityNeRF,是从 NeRF 发展而来的。NeRF 是最早使用辐射场和机器学习从图像构建 3D 模型的模型之一。但效率不高,而且只适用于单一规模。本文中,CityNeRF可同时应用于卫星和地面图像,为任何视点生成各种 3D 模型比例。

38、ClipCap: CLIP Prefix for Image Captioning

https://arxiv.org/abs/2111.09734

7de13ad6583ab06f8eedc6f198f9a1ab.png

CLIP 是一种将图像与文本作为指南链接的模型。一个非常相似的任务称为图像字幕,听起来很简单,但实际上也同样复杂。它体现了机器生成图像自然描述的能力。简单标记您在图像中看到的对象很容易,但理解单个二维图片则是另一回事,这个新模型做得非常好。

参考资料:

https://github.com/louisfb01/best_AI_papers_2021#6

本文仅做学术分享,如有侵权,请联系删文。

重磅!计算机视觉工坊-学习交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有ORB-SLAM系列源码学习、3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

29cc936f72528ed13f80d2acc81fcc5f.png

▲长按加微信群或投稿

92419ca14620251c4ab634a567104200.png

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列三维点云系列结构光系列手眼标定相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

f6a67b74920c9e09a5d525a480d773ca.png

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值