前沿论文速递24.01.26

ftsao

已于 2024-01-27 22:26:14 修改

阅读量1k

点赞数 27

文章标签：人工智能

于 2024-01-26 08:00:00 首次发布

本文链接：https://blog.csdn.net/qitazhang/article/details/135833733

版权

1.Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

Lihe Yang, Bingyi Kang, Zilong Huang, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao

github：https://github.com/LiheYoung/Depth-Anything ★ 2031

paper：https://arxiv.org/abs/2401.10891v1

Task：Data Augmentation, Depth Estimation, Monocular Depth Estimation, Semantic Segmentation

摘要：这项工作提出了 Depth Anything，这是一种用于鲁棒单目深度估计的高度实用的解决方案。在不追求新颖的技术模块的情况下，我们的目标是建立一个简单而强大的基础模型，处理任何情况下的任何图像。为此，我们通过设计数据引擎来收集并自动注释大规模未标记数据（~62M）来扩展数据集，这显着扩大了数据覆盖范围，从而能够减少泛化误差。我们研究了两种简单而有效的策略，使数据扩展前景光明。首先，利用数据增强工具创建更具挑战性的优化目标。它迫使模型主动寻求额外的视觉知识并获得稳健的表示。其次，开发了辅助监督来强制模型从预训练的编码器继承丰富的语义先验。我们广泛评估其零镜头能力，包括六个公共数据集和随机捕获的照片。它表现出了令人印象深刻的泛化能力。此外，通过使用 NYUv2 和 KITTI 的度量深度信息对其进行微调，设置了新的 SOTA。我们更好的深度模型也会产生更好的深度调节 ControlNet。

2.Self-Rewarding Language Models

Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho, Sainbayar Sukhbaatar, Jing Xu, Jason Weston

github：： https://github.com/lucidrains/self-rewarding-lm-pytorch ★ 787

paper：https://arxiv.org/abs/2401.10020v1

Task：Instruction Following, Language Modelling

摘要：我们认为，为了实现超人智能体，未来的模型需要超人反馈才能提供足够的训练信号。目前的方法通常根据人类偏好来训练奖励模型，这可能会受到人类表现水平的瓶颈，其次这些单独的冻结奖励模型无法在 LLM 训练期间学习改进。在这项工作中，我们研究自我奖励语言模型，其中语言模型本身通过法学硕士作为法官来使用，提示在训练期间提供自己的奖励。我们表明，在迭代 DPO 培训期间，不仅提高了指令遵循能力，而且还提高了为自身提供高质量奖励的能力。在我们的方法的三个迭代中对 Llama 2 70B 进行微调，产生的模型优于 AlpacaEval 2.0 排行榜上的许多现有系统，包括 Claude 2、Gemini Pro 和 GPT-4 0613。虽然只是初步研究，但这项工作打开了大门模型可以在两个轴上不断改进的可能性。

3.Code Generation with AlphaCodium: From Prompt Engineering to Flow Engineering

Tal Ridnik, Dedy Kredo, Itamar Friedman

github：https://github.com/codium-ai/alphacodium ★ 1876

paper：:https://arxiv.org/abs/2401.08500v1

Task： Instruction Following, Language Modelling

摘要：代码生成问题与常见的自然语言问题不同 - 它们需要匹配目标语言的确切语法，识别最佳路径和边缘情况，关注问题规范中的众多小细节，并解决其他特定于代码的问题和要求。因此，在自然语言生成中成功的许多优化和技巧可能对代码任务无效。在这项工作中，我们提出了一种由 LLM 生成代码的新方法，我们称之为 AlphaCodium - 一种基于测试的、多阶段、面向代码的迭代流程，可以提高 LLM 在代码问题上的性能。我们在名为 CodeContests 的具有挑战性的代码生成数据集上测试了 AlphaCodium，其中包括来自 Codeforces 等平台的竞争性编程问题。所提出的流程一致且显着地改善了结果。例如，在验证集上，GPT-4 准确率 (pass@5) 从单个精心设计的直接提示的 19% 提高到 AlphaCodium 流程的 44%。我们相信，这项工作中获得的许多原则和最佳实践广泛适用于一般代码生成任务。

4.VMamba: Visual State Space Model

Yue Liu, Yunjie Tian, Yuzhong Zhao, Hongtian Yu, Lingxi Xie, YaoWei Wang, Qixiang Ye, Yunfan Liu

github：https://github.com/mzeromiko/vmamba ★ 335

paper： https://arxiv.org/abs/2401.10166v1

Task：Representation Learning

摘要：卷积神经网络(CNN)和视觉变换(ViTs)是视觉表征学习中最流行的两种基础模型。cnn在线性复杂度和图像分辨率方面表现出显著的可扩展性，而ViTs在拟合能力方面超越了cnn，尽管它要与二次复杂度竞争。通过对全局接受域和动态权重的结合，ViTs实现了卓越的视觉建模性能。这一观察结果促使我们提出一种新的架构，该架构继承了这些组件，同时提高了计算效率。为此，我们从最近引入的状态空间模型中汲取灵感，提出了在不牺牲全局接受域的情况下实现线性复杂性的视觉状态空间模型(VMamba )。为了解决遇到的方向敏感问题，我们引入了交叉扫描模块(CSM)来遍历空间域并将任何非因果视觉图像转换为有序补丁序列。大量的实验结果证实，VMamba 不仅在各种视觉感知任务中表现出有希望的能力，而且随着图像分辨率的增加，它比现有基准显示出更明显的优势。

微信公众号同步更新