AI前沿论文速递 24.02.27

1.伯克利 | 百万长度视频和语言的世界模型

World Model on Million-Length Video And Language With RingAttention

Hao liu, Wilson Yan, Matei Zaharia, Pieter Abbeel

github: https://github.com/LargeWorldModel/LWM   ★ 5978

paper: https://arxiv.org/abs/2402.08268v1

Task:Video Understanding

摘要:当前的语言模型在理解世界上不易用语言描述的方面方面存在不足,并且难以处理复杂的长格式任务。视频序列提供了语言和静态图像中所缺少的有价值的时间信息,这使得它们对于与语言的联合建模很有吸引力。这些模型可以加深对人类文本知识和物理世界的理解,从而实现更广泛的人工智能能力来帮助人类。然而,由于内存限制、计算复杂性和有限的数据集,从数百万个视频和语言序列的标记中学习提出了挑战。为了应对这些挑战,我们整理了一个包含各种视频和书籍的大型数据集,利用 RingAttention 技术对长序列进行可扩展训练,并逐渐将上下文大小从 4K 增加到 1M 令牌。本文做出以下贡献:(a)最大上下文大小神经网络:我们在长视频和语言序列上训练最大上下文大小变换器之一,为困难的检索任务和长视频理解设定了新的基准。(b) 克服视觉语言训练挑战的解决方案,包括使用掩码序列打包来混合不同的序列长度、使用损失权重来平衡语言和视觉,以及用于长序列聊天的模型生成的 QA 数据集。(c) 高度优化的实现,具有 RingAttention、屏蔽序列打包和其他关键功能,用于训练数百万长度的多模态序列。(d) 完全开源一系列 7B 参数模型,能够处理超过 100 万代币的长文本文档(LWM-Text、LWM-Text-Chat)和视频(LWM、LWM-Chat)。这项工作为长视频和语言的海量数据集的训练铺平了道路,以发展对人类知识和多模式世界的理解以及更广泛的能力。

2.Facebookresearch | V-JEPA 视频无监督学习

Revisiting Feature Prediction for Learning Visual Representations from Video

Adrien Bardes, Quentin Garrido, Jean Ponce, Xinlei Chen, Michael Rabbat, Yann Lecun, Mahmoud Assran, Nicolas Ballas

github: https://github.com/facebookresearch/jepa    ★ 1556

paper: https://ai.meta.com/research/publications/revisiting-feature-prediction-for-learning-visual-representations-from-video/

   

Task:video unsupervised learning

摘要:本文探讨了特征预测作为视频无监督学习的独立目标,并介绍了 V-JEPA,这是一组仅使用特征预测目标训练的视觉模型集合,不使用预训练的图像编码器、文本、负例、重建、或其他监督来源。这些模型使用从公共数据集中收集的 200 万个视频进行训练,并针对下游图像和视频任务进行评估。我们的结果表明,通过预测视频特征进行学习可以产生多种视觉表示,在基于运动和外观的任务上表现良好,而无需调整模型参数;例如,使用冷冻的骨干。我们最大的模型,仅在视频上训练的 ViT-H/16,在 Kinetics-400 上获得 81.9%,在 Something-Something-v2 上获得 72.2%,在 ImageNet1K 上获得 77.9%。

3.微软 | 用于 Windows 操作系统交互的以 UI 为中心的代理

UFO: A UI-Focused Agent for Windows OS Interaction

Marcos V. Conde, Gregor Geigle, Radu Timofte 

github:https://github.com/microsoft/UFO   ★ 2067

paper:https://arxiv.org/abs/2401.16468v2

Task:AI agent, Navigate

摘要:我们推出了 UFO,一种创新的以 UI 为中心的代理,利用 GPT-Vision 的功能,满足针对 Windows 操作系统上的应用程序量身定制的用户请求。UFO采用双代理框架来仔细观察和分析Windows应用程序的图形用户界面(GUI)和控制信息。这使得代理能够在各个应用程序内以及跨应用程序无缝导航和操作,以满足用户请求,即使跨越多个应用程序也是如此。该框架包含一个控制交互模块,无需人工干预即可促进操作落地,并实现完全自动化执行。因此,UFO 将艰巨且耗时的过程转变为仅通过自然语言命令即可完成的简单任务。我们对 9 个流行的 Windows 应用程序进行了 UFO 测试,涵盖了反映用户日常使用情况的各种场景。来自定量指标和实际案例研究的结果强调了 UFO 在满足用户请求方面的卓越有效性。据我们所知,UFO 是第一个专门为 Windows 操作系统环境中完成任务而定制的 UI 代理。

4.YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information

Chien-Yao Wang, I-Hau Yeh, Hong-Yuan Mark Liao 

github:https://github.com/wongkinyiu/yolov9 ★ 3222

paper:https://arxiv.org/abs/2402.13616v1​

Taskobject-detection

摘要:如今的深度学习方法重点关注如何设计最合适的目标函数,使得模型的预测结果能够最接近真实情况。同时,必须设计一个适当的架构,可以帮助获取足够的信息进行预测。现有方法忽略了一个事实,即当输入数据经过逐层特征提取和空间变换时,大量信息将会丢失。本文将深入研究数据通过深度网络传输时数据丢失的重要问题,即信息瓶颈和可逆函数。我们提出了可编程梯度信息(PGI)的概念来应对深度网络实现多个目标所需的各种变化。PGI可以为目标任务计算目标函数提供完整的输入信息,从而获得可靠的梯度信息来更新网络权值。此外,还设计了一种新的轻量级网络架构——基于梯度路径规划的通用高效层聚合网络(GELAN)。GELAN的架构证实了PGI在轻量级模型上取得了优异的结果。我们在基于 MS COCO 数据集的目标检测上验证了所提出的 GELAN 和 PGI。结果表明,与基于深度卷积开发的最先进方法相比,GELAN 仅使用传统的卷积算子即可实现更好的参数利用率。PGI 可用于从轻型到大型的各种模型。它可以用来获取完整的信息,使得从头开始训练的模型能够比使用大数据集预训练的state-of-the-art模型获得更好的结果。

微信公众号同步更新

  • 48
    点赞
  • 41
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值