近3年AI届引用量论文Top 10盘点!

人工智能(AI)领域发展速度之快我们不必多说,年初AIGC届的Sora、三月份Nvidia的GTC大会、五月份的大模型巨头企业纷争、初夏时各大车企更新智驾技术以及最近武汉正式推进的“萝卜快跑”无人驾驶项目,2024年“科技”这座山脉的高度再一次被拔高,人工智能已经成为引领未来的绝对第一驱动力。

2021年,AI+的各个应用“初显锋芒”,预训练模型成为2021年人工智能领域的热门话题自动驾驶与大模型研究亦还是一片蓝海。

这3年来,AI领域的各个技术层面都有了翻天覆地的变革,本次我们盘点了2021年至今,AI领域内引用量最高的10篇论文,涵盖了计算语言学、计算机视觉及大语言模型等多个技术领域。最高引用量近乎2w,包含多位华人研究者!

(本次盘点基于Google scholar的公开数据检索整理,如有不当之处欢迎大家指正)

TOP 1|Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows

引用量:19635
作者:Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo(CV LG.发表于2021年)

●提炼内容

本文介绍了一种新的视觉转换器,名为Swin Transformer,是一个帮助计算机更好地理解和处理图像的“智能助手”。

以往的AI模型在处理图像时,往往使用一种叫做卷积神经网络(CNN)的技术。但Swin Transformer采用了一种全新的方法——Transformer,它最初是为处理语言设计的。将Transformer应用于图像处理有一些挑战,比如图像中物体的大小变化很大,而文字处理时单词的大小是固定的。Swin Transformer通过一种叫做“层次化”和“移位窗口”的技术解决了这些问题。“层次化”意味着Swin Transformer会像搭积木一样,从小块图像开始,逐渐合并成更大的图像块来理解整个画面。“移位窗口”则是一种聪明的方法,它允许模型在处理图像时,不仅关注当前的小区域,还能与周围的区域建立联系。Swin Transformer通过层次化和移位窗口的技术,使得计算复杂度与图像大小呈线性关系,而不是像以前的模型那样呈二次方关系,这大大提高了处理速度,对全MLP架构大有裨益。

Swin Transformer的这些特性使其能够与广泛的视觉任务兼容,包括图像分类(在ImageNet-1K上的top-1准确率为87.3%)和密集预测任务,如目标检测(在COCO testdev上,框AP为58.7,掩码AP为51.1)和语义分割(在ADE20K val上,mIoU为53.5)。在COCO物体检测和ADE20K语义分割等任务上,Swin Transformer的性能超越了之前的最佳方法。

TOP 2|Learning Transferable Visual Models From Natural Language Supervision

引用量:18830
作者:Alec Radford, Jong Wook Kim, Chris Hallacy, et al.(CV LG.发表于2021年)

●提炼内容

传统的计算机视觉系统通常需要预先定义好的对象类别集合,这限制了它们的通用性和可用性。CLIP模型通过直接从自然语言描述中学习,从而克服了这一限制。本作研究者们从互联网上收集了包含4亿对(图像,文本)的数据集,这为模型提供了丰富的学习材料。

研究者们发现,CLIP模型在预训练后能够使用自然语言描述来引用学习到的视觉概念或描述新概念,实现零样本迁移到下游任务。这意味着模型可以在没有特定任务训练数据的情况下,对新任务进行推理。此外,学者们通过在超过30个不同的现有计算机视觉数据集上进行基准测试,证实了CLIP模型在多种任务上表现出色,如OCR(光学字符识别)、视频动作识别、地理定位等。同时,CLIP模型在没有特定数据集训练的情况下,也能与完全监督的基线相媲美。例如,在ImageNet数据集上,CLIP模型在零样本的情况下,准确率与原始的ResNet-50相当,而无需使用ResNet-50训练时所用的128万张训练图片。

总的来说,CLIP模型之所以厉害,是因为它展示了一种全新的从自然语言描述中学习视觉表示的方法,这种方法不仅能够处理多种视觉任务,而且在没有大量标注数据的情况下也能工作得很好。这为计算机视觉领域提供了一种新的、灵活且强大的工具,有潜力改变业内开发和应用AI模型的方式。

TOP 3|High-Resolution Image Synthesis With Latent Diffusion Models

引用量:9309
作者:Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, Björn Ommer(CV.发表于2021年)

●提炼内容

传统的图像合成方法可能需要大量的计算资源,而且生成的图像质量可能受限。这篇论文提出了一种新的方法,通过在潜在空间(latent space)中应用扩散模型,可以在较少的计算资源下生成高质量的图像。潜在空间是数据的一种压缩表示形式,可以捕捉到图像中的关键信息,同时去除不必要的细节。在潜在空间中进行图像合成,可以减少计算量,同时保留图像的重要特征;而扩散模型的优点是它们允许在生成过程中引入引导机制,这意味着可以根据需要调整生成的图像,而无需重新训练模型。

为了使模型能够接受各种条件输入(如文本或边框),作者引入了跨注意力层,这使得模型在生成图像时更加灵活和强大。与以前的工作相比,在这种表示上训练扩散模型首次在复杂性降低和细节保留之间达到了接近最佳的状态,从而大大提高了视觉保真度。

这项技术减少了训练和推理过程中的计算需求,使得在有限的硬件资源上也能进行高质量的图像合成。通过将交叉注意力层引入模型架构中,作者们将扩散模型转变为功能强大且灵活的生成器,适用于一般的条件输入(如文本或边界框),并且能够以卷积方式实现高分辨率合成。这项工作在图像合成领域提出了一种新的方法论,可能会影响未来的研究方向和应用开发。

TOP 4|Training language models to follow instructions with human feedback

引用量:7688
作者:Long Ouyang, Jeff Wu, Xu Jiang, et al.(CL AI LG.发表于2022年)

●提炼内容

虽然大型语言模型在很多自然语言处理任务上表现出色,但它们有时会产生不真实、有害或对用户无帮助的输出。这表明这些模型与用户的需求并不完全一致。为了解决这个问题,论文提出了使用人类反馈来微调(fine-tune)语言模型。这意味着在模型训练过程中,通过人类的评估和指导来改善模型的行为。研究者们首先收集了一组由标注者编写的提示和通过 OpenAI API 提交的提示,然后使用这些数据来训练 GPT-3。他们还收集了模型输出的排名数据,这些数据被用来进一步通过人类反馈进行强化学习微调。通过这个过程,他们创建了一个新的模型,称为 InstructGPT。在针对作者的提示分布进行的人类评估中,尽管1.3B参数的InstructGPT模型的参数比175B的GPT-3少100倍,但其输出却更受青睐。InstructGPT 模型在真实性和减少有害输出方面表现出了改进,并且在公共 NLP 数据集上的性能没有显著下降。

总的来说,本作提出了一种新的训练方法,通过人类反馈来改善大型语言模型的输出质量。实验结果表明,即使是较小的 InstructGPT 模型,在遵循用户指令方面也比原始的 GPT-3 更出色。此外,InstructGPT 能够生成更真实、更少有害的文本,这对于语言模型的安全性和可靠性至关重要。这项技术可以应用于多种语言任务,提高语言模型在实际使用中的有效性和安全性。

TOP 5|LLaMA: Open and Efficient Foundation Language Models

引用量:7368
作者:Hugo Touvron, Thibaut Lavril, Gautier Izacard, et al.(CL.发表于2023年)

●提炼内容

本文推出了LLaMA:一个包含从70亿到650亿参数不等的基础语言模型集合。研究人员在数万亿个标记上训练了模型,并表明仅使用公开可用的数据集就可以训练出最先进的模型,而无需诉诸专有且无法访问的数据集。尽管LLaMA-13B的参数量只有GPT-3(175B参数)的十分之一,但它在大多数基准测试中的表现超过了GPT-3,而65B参数的LLaMA模型与Chinchilla-70B和PaLM-540B等顶尖模型具有竞争力。本文研究者们公开了所有LLaMA模型,这意味着任何人都可以使用这些模型进行研究和开发,极大地推动了大型语言模型的研究和应用。

LLaMA模型的训练采用了高效的实现方式,包括对因果多头注意力的优化、检查点技术等,这些技术减少了内存使用和运行时间,提高了训练效率;此外,LLaMA模型在多种自然语言处理任务上表现出色,包括常识推理、闭卷问答、阅读理解和数学推理等。

TOP 6|Llama 2: Open Foundation and Fine-Tuned Chat Models

引用量:6456
作者:Hugo Touvron, Louis Martin, Kevin Stone, et al.(CL AI.发表于2023年)

●提炼内容

本文开发和发布了Llama 2:一系列预训练和微调的大型语言模型,参数量从7亿到700亿不等。这些模型特别为对话场景进行了优化,被称为Llama 2-Chat。

在大多数测试的基准上,Llama 2-Chat的表现超过了现有的开源聊天模型,并且在人工评估的有用性和安全性方面,可能成为闭源模型的合适替代品。研究团队不仅关注模型的性能,还特别强调了安全性和有用性,通过人工评估和机器学习技术(如强化学习)来提高模型的这些方面。

这篇论文不仅在技术上取得了显著进步,还在伦理和环境责任方面树立了新的标准。通过开源模型和方法,研究者们鼓励更广泛的社区参与和协作,以促进AI技术的健康发展。

TOP 7|Graph Stacked Hourglass Networks for 3D Human Pose Estimation

引用量:6370
作者:Tianhan Xu, Wataru Takano(CV.发表于2021年)

●提炼内容

在本文中,作者提出了一种新的网络架构:“Graph Stacked Hourglass Networks”(图堆叠沙漏网络),这个架构通过重复的编码器-解码器结构来处理人体骨骼的图结构特征,能够在不同的尺度上提取特征,用于2D到3D的人体姿态估计任务。

这种架构能够同时学习局部和全局的特征表示,这对于理解人体姿态非常关键;本文还介绍了一种使用不同深度中间特征的多级特征学习方法,通过使用不同深度的中间特征,该模型架构能够更好地捕捉不同层次的语义信息;此外,论文中提及的网络能够处理图结构的数据,这是传统基于图像的网络所不具备的。

研究团队通过大量实验验证了该方法的有效性,结果表明,所提出的模型超越了现有的最先进技术。这项研究推动了3D人体姿态估计技术的发展,为相关领域的应用提供了更准确、更可靠的技术基础。

TOP 8|Light Field Rendering

引用量:6228
作者:Marc Levoy and Pat Hanrahan(CV.发表于2023年)

●提炼内容

光场是指在空间中的某一点上,从不同方向传来的光的总量。这篇论文提出了一种将光场视为一个四维函数的方法,这个函数能够完全描述静态场景中固定照明下未受阻拦空间的光流。作者提出了一种简单而强大的方法,可以从任意相机位置生成新视图,而无需深度信息或特征匹配。这通过组合和重采样现有图像来实现。

此外,论文描述了一种光场的采样表示方法,允许高效地创建和展示内视图和外视图。通过使用视频摄像机获取的大型图像阵列,可以创建光场。一旦创建了光场,就可以通过按适当方向提取切片来实时构建新视图。由于该方法的成功依赖于高采样率,作者还描述了一种压缩系统,能够将生成的光场压缩超过100:1,而几乎不损失保真度。本文还讨论了在光场创建过程中的抗锯齿问题,以及在切片提取过程中的重采样问题。

这项工作发布于1996年的SIGGRAPH会议,是计算机图形学领域内被引用次数第4名的一篇论文。本文首次提出了光场的概念,并展示了如何利用光场来生成新视角的图像,这在当时是革命性的技术。这项技术可以用于创建更加真实的三维场景,提高视觉效果,并且在后来的许多应用中得到使用,如光场摄影、虚拟现实和增强现实等。

TOP 9|Training data-efficient image transformers & distillation through attention

引用量:6199
作者:Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, Hervé Jégou(CV.最终修订时间2021年)

●提炼内容

这篇论文介绍了一种新型的图像识别模型,称为DeiT(Data-efficient image Transformers),DeiT模型能够在ImageNet数据集上仅用单台计算机在不到3天内完成训练,这与传统的需要大量数据和计算资源的模型相比,是一个显著的进步。DeiT完全基于注意力机制,它不依赖于传统的卷积神经网络(CNN)结构,这在图像识别领域也是一个创新的尝试。

此外,论文还提出了一种针对变换器(transformers)的特定教师-学生策略,通过引入一个“蒸馏token”,使学生模型能够通过注意力机制从教师模型那里学习。

实验证明,DeiT模型在ImageNet数据集上达到了83.1%的top-1准确率,而且当使用蒸馏策略时,准确率可以进一步提升到85.2%,这与卷积网络的性能相当。

本文还展示了DeiT模型在其他任务上的迁移学习能力,证明了其不仅在ImageNet上表现良好,也能够适应其他视觉识别任务。

TOP 10|YOLOv7: Trainable Bag-of-Freebies Sets New State-of-the-Art for Real-Time Object Detectors

引用量:6078
作者:Chien-Yao Wang, Alexey Bochkovskiy, and Hong-Yuan Mark Liao(CV.发表于2022年)

●提炼内容

实时目标检测是计算机视觉中的一个重要领域,广泛应用于多目标跟踪、自动驾驶、机器人、医学图像分析等。它需要在很短的时间内(如每秒30帧或更多)准确识别图像中的物体。而YOLOv7在速度和准确性上都超越了现有的目标检测算法。它在每秒5到160帧的范围内表现最佳,并且在GPU V100上以每秒30帧或更高的速度运行时,准确率达到了56.8%。YOLOv7-E6(一种变体)在速度上比基于变换器的检测器(如SWINL Cascade-Mask R-CNN)快509%,并且在准确性上高2%。

YOLOv7引入了一种称为“trainable bag-of-freebies”的方法,通过优化训练过程来提高目标检测的准确性,而不增加推理成本。该方法包括一些优化模块和方法,如模型重参数化、动态标签分配等。YOLOv7还提出了一种新的模型扩展方法,能够根据不同的计算需求调整模型的大小,这使得它能够适应从边缘设备到云服务器的各种环境。

YOLOv7在保持高速度的同时,还能实现高准确性,这对于实时目标检测来说非常重要。许多先进的目标检测模型依赖于预训练权重,但YOLOv7仅在MS COCO数据集上完全从零开始训练,这降低了训练的复杂性和依赖性。

——小编有话说——

「深蓝学院资讯星球」正在搭建中,预计8月正式发售,本次盘点的论文包与相关编译解读资料均在其中!如需了解更多,可咨询顾问进入我们搭建的万人社群👇

在这里插入图片描述

群内开放「5元抵75元」的限时福利!前200人享29元/年(平均每周5毛钱)欢迎来访👏

推荐阅读:
无监督角度感知突破数据瓶颈,端到端自动驾驶具备大模型scaling law
独家|端到端自动驾驶技术,地平线团队研究员QA(精选)

  • 13
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值