大模型日报｜6 篇必读的大模型论文 2020-6-20

_一帘幽梦_

已于 2024-06-21 11:54:12 修改

阅读量24

点赞数

分类专栏：论文相关文章标签：人工智能神经网络深度学习

于 2024-06-21 11:52:46 首次发布

原文链接：https://blog.csdn.net/AMiner2006/article/details/139827472

版权

论文相关专栏收录该内容

5 篇文章 0 订阅

订阅专栏

大家好，今日必读的大模型论文来啦！

1.何恺明新作：无需矢量量化的自回归图像生成

传统观点认为，用于图像生成的自回归模型通常都伴随着向量量化的 token。

麻省理工学院计算机科学与人工智能实验室（MIT CSAIL）何恺明团队与来自 Google DeepMind 和清华大学的合作者发现，虽然离散值空间有助于表示分类分布，但它并不是自回归建模的必要条件。

在这项工作中，他们建议使用扩散程序对每个 token 的概率分布进行建模，这样便可以在连续值空间中应用自回归模型。他们没有使用分类交叉熵损失，而是定义了一个扩散损失函数来为每个 token 概率建模。这种方法无需使用离散值 tokenizers，他们评估了其在各种情况下的有效性，包括标准自回归模型和广义掩码自回归（MAR）变体。通过去除矢量量化，他们提出的图像生成器在具有序列建模的速度优势的同时，还取得了很好的效果。他们希望这项工作能推动自回归生成技术在其他连续值领域和应用中的应用。

论文链接：
https://arxiv.org/abs/2406.11838

2.清华、智谱 AI 团队推出超长视频理解基准 LVBench

多模态大语言模型的最新进展显著提高了对短视频（通常在一分钟以内）的理解能力，并相应出现了一些评估数据集。然而，这些进步还不能满足现实世界应用的需求，比如用于长期决策的智能体、深入的电影评论和讨论以及现场体育评论，所有这些应用都需要理解长达数小时的长视频。

为了弥补这一差距，来自清华大学、智谱AI 和北京大学的研究团队推出了专门为长视频理解设计的基准测试——LVBench。这一数据集由公开来源的视频组成，包含一系列旨在理解长视频和提取信息的不同任务。LVBench 旨在检测多模态模型的长期记忆和扩展理解能力。

广泛的评估表明，当前的多模态模型在这些要求苛刻的长视频理解任务中仍然表现不佳。通过 LVBench，研究团队希望推动开发更先进的模型，从而应对长视频理解的复杂性。

论文链接：
https://arxiv.org/abs/2406.08035
项目地址：
https://lvbench.github.io/

3.清华 KEG 团队推出强化自训练方法 ReST-MCTS*

最近的大语言模型（LLM）自训练方法大多依赖于 LLM 生成响应，并筛选出具有正确输出答案的响应作为训练数据。然而，这种方法通常会产生低质量的微调训练集，比如不正确的计划或中间推理。

在这项工作中，来自清华大学知识工程研究室（KEG）和加州理工学院的研究团队开发了一种强化自训练方法——ReST-MCTS*，其将过程奖励指导与树搜索 MCTS* 结合，来收集更高质量的推理轨迹和每步值，从而训练策略和奖励模型。通过基于树搜索的强化学习，ReST-MCTS* 规避了通常用于训练过程奖励的每一步人工标注：在给定特定任务正确答案的情况下，ReST-MCTS* 能够通过估计该步骤帮助得出正确答案的概率，推断出正确的过程奖励。这些推断出的奖励既是进一步完善过程奖励模型的目标，也有助于为策略模型的自训练选择高质量的轨迹。

他们首先证明，在相同的搜索预算下，ReST-MCTS* 中的树搜索策略比之前的 LLM 推理基线（如 Best-of-N 和 Tree-of-Thought ）实现了更高的准确率。然后，他们展示了通过使用这种树搜索策略搜索到的踪迹作为训练数据，他们可以在多次迭代中持续增强三个语言模型，并超越 Self-Rewarding LM 等其他自训练算法。

论文链接：
https://arxiv.org/abs/2406.03816
项目地址：
https://rest-mcts.github.io/

4.中国科大、字节团队：为视频生成提供免训练的相机控制

来自中国科学技术大学和字节跳动的研究团队提出了一种免训练的鲁棒解决方案，为现成的视频扩散模型提供相机移动控制。

与以往的工作不同，他们的方法不需要在相机标注的数据集上进行任何监督微调，也不需要通过数据增强进行自我监督训练。相反，它可以与大多数预先训练好的视频扩散模型结合使用，只需输入一张图片或文字提示，就能生成相机可控的视频。

他们的工作灵感来自于中间潜像对生成结果所持有的布局先验，因此重新排列中间潜像中的噪声像素也会使输出内容重新分配。由于相机的移动也可以看作是一种由视角变化引起的像素重新排列，因此，如果视频中的噪声潜像发生相应的变化，就可以根据特定的相机移动对视频进行重组。

在此基础上，他们提出了 CamTrol 方法，为视频扩散模型提供鲁棒的相机控制。该方法通过两个阶段实现，首先，通过 3D 点云空间中明确的相机运动来模拟图像布局的重新排列；其次，利用由一系列重新排列的图像形成的噪声潜像的布局先验来生成带有相机运动的视频。大量实验证明，他们的方法在控制生成视频的相机运动方面具有鲁棒性。

论文链接：
https://arxiv.org/abs/2406.10126
GitHub 地址：
https://lifedecoder.github.io/CamTrol/

5.英伟达提出 RVT-2：从少量演示中学习精确操作

来自英伟达的研究团队研究了如何构建一个机器人系统，该系统能够在语言指令的指导下完成多项 3D 操作任务。

为了在工业和家居领域发挥作用，这样的系统应该能够通过少量演示学习新任务，并精确地完成这些任务。PerAct 和 RVT 等人已经研究过这一问题，但它们在处理要求高精度的任务时往往力不从心。

在这项工作中，研究团队将研究如何使它们更有效、更精确、更快速。通过架构和系统级改进的结合，他们提出了一种多任务 3D 操作模型 RVT-2，其训练速度比前代 RVT 快 6 倍，推理速度快 2 倍。RVT-2 在 RLBench 上达到了 SOTA，成功率从 65% 提高到 82%。RVT-2 在现实世界中也很有效，只需 10 次演示，它就能学会要求高精度的任务，如拿起和插入插头。

论文链接：
https://arxiv.org/abs/2406.08545
GitHub 地址：
https://robotic-view-transformer-2.github.io/

6.减少生成式 LLM 中的死记硬背现象

大语言模型会记忆和重复训练数据，从而造成隐私和版权风险。为此，来自马里兰大学、ELLIS Institute Tübingen 和马克斯·普朗克智能系统研究所对下一个 token 的训练目标提出了一个微妙的修改，称为 “金鱼损失”（goldfish loss）。在训练过程中，随机抽样的 token 子集会被排除在损失计算之外。这些被剔除的 token 不会被模型记忆，从而防止逐字复制训练集中的完整 token 链。

他们进行了大量实验来训练十亿规模的 Llama-2 模型，包括预训练和重新训练，结果表明可提取的记忆量显著减少，对下游基准几乎没有影响。

论文链接：
https://arxiv.org/abs/2406.10209
GitHub 地址：
https://github.com/ahans30/goldfish-loss

_一帘幽梦_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大模型日报｜6 篇必读的大模型论文 2020-6-20

通过基于树搜索的强化学习，ReST-MCTS* 规避了通常用于训练过程奖励的每一步人工标注：在给定特定任务正确答案的情况下，ReST-MCTS* 能够通过估计该步骤帮助得出正确答案的概率，推断出正确的过程奖励。然而，这些进步还不能满足现实世界应用的需求，比如用于长期决策的智能体、深入的电影评论和讨论以及现场体育评论，所有这些应用都需要理解长达数小时的长视频。由于相机的移动也可以看作是一种由视角变化引起的像素重新排列，因此，如果视频中的噪声潜像发生相应的变化，就可以根据特定的相机移动对视频进行重组。
复制链接

扫一扫