Arachis_X-CSDN博客

原创【计算机视觉 Mamba】MambaOut: Do We Really Need Mamba for Vision?

Mamba 是一种具有类似 RNN 的状态空间模型（SSM）令牌混合器的架构，最近被引入以解决注意力机制的二次复杂性问题，随后被应用于视觉任务。然而，与卷积模型和基于注意力的模型相比，Mamba 在视觉方面的表现往往不尽如人意。Mamba 非常适合具有长序列和自回归特征的任务。对于视觉任务，由于图像分类不符合这两种特征，因此我们假设 Mamba 不需要用于该任务；检测和分割任务也不是自回归任务，但它们符合长序列特征，因此我们认为仍然值得探索 Mamba 在这些任务中的潜力。

2024-05-21 17:27:24 533

原创【动画数据集 Sakuga-42M Dataset】Sakuga-42M Dataset: Scaling Up Cartoon Research

手绘卡通动画采用草图和平面色彩片段来营造运动的错觉。虽然 CLIP、SVD 和 Sora 等最新技术通过扩展大型模型和广泛的数据集，在理解和生成自然视频方面取得了令人印象深刻的成果，但它们对动画片却不那么有效。通过实证实验，我们认为这种无效性源于手绘卡通的明显偏差，这种偏差与自然视频的分布不同。我们能否利用缩放范式的成功来促进卡通研究？遗憾的是，到目前为止，还没有一个相当规模的卡通数据集可供探索。在这项研究中，我们提出了首个大规模卡通动画数据集–Sakuga-42M 数据集。

2024-05-21 17:15:48 515

原创【故事扩散图像视频生成】StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation

对于最新的基于扩散的生成模型来说，在生成的一系列图像中保持内容的一致性，尤其是那些包含主题和复杂细节的图像，是一个巨大的挑战。在本文中，我们提出了一种新的自我注意力计算方法，称为 “一致的自我注意力”（Consistent Self-Attention），它能显著提高生成图像之间的一致性，并以zero-shot的方式增强普遍的基于扩散的预训练文本到图像模型。为了将我们的方法扩展到长距离视频生成，我们进一步引入了一个新颖的语义空间时间运动预测模块，名为 “语义运动预测器”。

2024-05-08 22:31:37 896

原创【Kolmogorov-Arnold网络替代多层感知机MLPs】KAN: Kolmogorov-Arnold Networks

受Kolmogorov-Arnold 表示定理的启发，我们提出了Kolmogorov-Arnold网络（KANs）作为多层感知器（MLPs）的替代品。MLP 在节点（“神经元”）上有固定的激活函数，而 KAN 在边缘（“权重”）上有可学习的激活函数。KAN 完全没有线性权重–每个权重参数都由参数化为样条曲线的单变量函数代替。我们的研究表明，这一看似简单的改变使得 KAN 在准确性和可解释性方面都优于 MLP。

2024-05-08 22:11:46 871

原创【LLMs 低成本】LLM Cascades with Mixture of Thoughts Representations for Cost-efficient Reasoning

GPT-4 等大型语言模型（LLM）在各种任务中表现出了卓越的性能，但这种强大的性能往往伴随着使用付费 API 服务的高昂费用。在本文中，我们的动机是研究建立一个 LLM 级联，以节省使用 LLM 的成本，尤其是在执行推理（如数学、因果关系）任务时。我们的级联管道遵循的直觉是，较简单的问题可以用较弱但更经济的 LLM 来解决，而只有具有挑战性的问题才需要较强和较昂贵的 LLM。

2024-04-12 18:04:36 825

原创【文本生成图像风格保护】InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation

基于无调谐扩散的模型已在图像个性化和定制领域展现出巨大潜力。然而，尽管取得了显著进展，目前的模型在生成风格一致的图像时仍然面临着一些复杂的挑战。首先，风格的概念本质上是不确定的，它包含多种元素，如颜色、材料、氛围、设计和结构等等。其次，基于反转的方法容易造成风格退化，往往会导致精细细节的丢失。最后，基于适配器的方法经常需要对每张参考图像进行细致的权重调整，以实现风格强度和文本可控性之间的平衡。在本文中，我们首先研究了几个引人注目但却经常被忽视的问题。

2024-04-10 17:39:16 723

原创【自回归视觉生成（VAR）】Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

视觉自回归模型（VAR）将图像上的自回归学习重新定义为从粗到细的 "下一尺度预测 "或 “下一分辨率预测”，有别于标准的栅格扫描 “下一标记预测”。我们提出了**视觉自回归建模（VAR）**这一新一代范式，它将图像上的自回归学习重新定义为从粗到细的 "下一尺度预测 "或 “下一分辨率预测”，有别于标准的栅格扫描 “下一标记预测”。这种简单、直观的方法使自回归（AR）变换器能够快速学习视觉分布，并具有良好的泛化能力：VAR 首次使 AR 模型在图像生成方面超越了扩散变换器。

2024-04-10 17:27:09 1257

原创【Zero-Shot 文本到语音】VoiceCraft: Zero-Shot Speech Editing and Text-to-Speech in the Wild

我们介绍的VoiceCraft是一种标记填充神经编解码语言模型，它在有声读物、网络视频和播客的语音编辑和零样本文本到语音（TTS）方面都达到了最先进的性能。VoiceCraft 采用Transformer解码器架构，并引入了一种标记重新排列程序，该程序结合了因果掩蔽和延迟堆叠技术，可在现有序列中生成语音。在语音编辑任务中，VoiceCraft 生成的编辑语音在自然度方面与未经编辑的录音几乎没有区别，这是由人类进行评估的；在零样本 TTS。

2024-04-05 22:13:11 634

原创【多标签零样本主题推理】Zero-Shot Multi-Label Topic Inference with Sentence Encoders and LLMs

在本文中，我们利用最新的句子编码器和大型语言模型（LLM）对 "definition-wild zero-shot主题推理 "这一具有挑战性的任务进行了全面研究。通过在七个不同的数据集上进行广泛实验，我们发现，与其他 LLM（如 BLOOM 和 GPT-NeoX）相比，ChatGPT-3.5 和 PaLM 等 LLM 表现出更优越的通用性。此外，基于 BERT 的经典句子编码器 Sentence-BERT 的表现优于 PaLM，其性能可与 ChatGPT-3.5 相媲美。

2024-03-29 21:53:36 245

原创【多标签文档分类同人文触发警告新数据集】Trigger Warning Assignment as a Multi-Label Document Classification Problem

触发警告用于警告人们可能存在令人不安的内容。我们将触发警告分配作为一项多标签分类任务来介绍，创建了Webis 触发警告语料库 2022，并随之创建了第一个数据集，该数据集包含来自 Archive of our Own 的 100 万部同人小说作品，每篇文档包含多达 36 种不同的警告。为了提供可靠的触发式警告目录，我们将 4100 万个由同人小说作者指定的自由格式标签整理成第一个全面的触发式警告分类法，将它们映射到机构推荐的 36 种警告。为了确定触发警告的最佳操作方法。

2024-03-28 23:15:42 763

原创【多标签小样本意图检测】Dual Class Knowledge Propagation Network for Multi-label Few-shot Intent Detection

多标签意图检测旨在为语句分配多个标签，作为面向任务的对话系统中的一项实用任务，它越来越受到关注。由于对话领域瞬息万变，新意图层出不穷，因此缺乏注释数据的情况促使了多标签少量意图检测的出现。然而，以往的研究被带有多个标签的相同语篇表示所迷惑，忽略了内在的类内和类间交互。为了解决这两个局限性，我们在本文中提出了一种新颖的双类知识传播网络。为了学习具有多个意图的语篇的良好分离表征，我们首先引入了一个包含类名信息的标签语义增强模块。为了更好地考虑类内和类间的固有关系，我们构建了一个实例级和一个类级。

2024-03-28 23:03:02 784

原创【单步扩散图像翻译】One-Step Image Translation with Text-to-Image Models

在这项工作中，我们解决了现有条件扩散模型迭代去噪过程导致的推理速度慢以及模型微调对配对数据的依赖。为了解决这些问题，我们引入了一种通用方法，通过对抗学习目标将单步扩散模型适应新任务和新领域。具体来说，我们将 vanilla 潜在扩散模型的各种模块整合到一个具有较小可训练权重的端到端生成器网络中，从而增强了其保持输入图像结构的能力，同时减少了过拟合。我们证明，在非配对环境下，我们的模型在各种场景转换任务中的表现优于现有的基于 GAN 和基于扩散的方法，如昼夜转换和添加/移除雾、雪、雨等天气效果。

2024-03-25 16:01:29 969

原创【LLMs组合合成进化算法】Evolutionary Optimization of Model Merging Recipes

我们介绍了进化算法在自动创建强大基础模型方面的新应用。虽然模型合并因其成本效益而成为一种有前途的 LLM 开发方法，但它目前依赖于人类的直觉和领域知识，限制了其潜力。在这里，我们提出了一种进化方法，通过自动发现不同开源模型的有效组合来克服这一局限，利用它们的集体智慧，而无需大量额外的训练数据或计算。我们的方法可在参数空间和数据流空间中运行，从而实现超越单个模型权重的优化。这种方法甚至还能促进跨领域合并，生成类似具有数学推理能力的日语 LLM 这样的模型。

2024-03-25 15:44:10 1068

原创【Grokking 小数据集过拟合泛化分析】Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets

在本文中，我们提议在通过算法生成的小型数据集上研究神经网络的泛化。在这种情况下，有关数据效率、记忆、泛化和学习速度等问题都可以得到详细研究。在某些情况下，我们发现神经网络可以通过 "摸索 "数据中的模式来学习，从而将泛化性能从随机概率水平提高到完美泛化水平，而且这种泛化性能的提高可以远远超过过度拟合的程度。我们还研究了泛化与数据集大小的函数关系，发现较小的数据集需要越来越多的泛化优化。

2024-03-20 22:41:45 925

原创【在线PS】Photopea 免费无需登录功能齐全

Photopea」是一个国外开发者开发的支持支持的免费在线高级图片编辑器。图层、蒙版、选区、笔刷、裁剪、钢笔、修复、仿制图章（Photopea中是克隆）等功能都一并具有。支持，相机里的无损原图可以直接导入修图。

2024-03-20 15:58:30 385

原创【区域语义交互图像生成】StreamMultiDiffusion: Real-Time Interactive Generation+Region-Based Semantic Control

扩散模型在文本到图像合成方面的巨大成功，使其有望成为下一代图像生成和编辑终端用户应用的候选模型。以前的工作主要集中在通过减少推理时间来提高扩散模型的可用性，或通过允许新的细粒度控制（如基于区域的文本提示）来提高用户交互性。然而，我们根据经验发现，整合这两个工作分支并非易事，从而限制了扩散模型的潜力。为了解决这种不兼容性，我们提出了 StreamMultiDiffusion，这是第一个基于区域的实时文本到图像生成框架。通过稳定快速推理技术并将模型重组为新提出的多提示流批处理架构。

2024-03-19 21:20:34 713

原创【Prompts + 图像生成视频】Follow-Your-Click: Open-domain Regional Image Animation via Short Prompts

尽管图像到视频生成技术近年来不断进步，但对更好的可控性和局部动画的探索却较少。这两个问题阻碍了当前 I2V 工具的实际应用：大多数现有的图像到视频生成方法都不具备局部感知能力，往往会移动整个场景。然而，人类艺术家可能需要控制不同物体或区域的移动。此外，目前的 I2V 方法不仅需要用户描述目标运动，还需要提供冗余的帧内容详细描述。在本文中，我们提出了一个名为 ""的实用框架，通过用户简单的点击（指定要移动的内容）和简短的运动提示（指定如何移动）来实现图像动画。在技术上，我们提出了。

2024-03-19 18:17:22 1481

原创【时间序列语言】Chronos: Learning the Language of Time Series

我们介绍了Chronos，这是一个简单而有效的预训练概率时间序列模型框架。Chronos 使用缩放和量化技术将时间序列值标记为固定词汇，并通过交叉熵损失在这些标记化的时间序列上训练现有的基于transformer的语言模型架构。我们在大量公开数据集上预训练了基于 T5 系列的 Chronos 模型（参数范围从 2 千万到 7.1 亿个不等），并通过高斯过程生成了一个合成数据集作为补充，以提高泛化能力。（a）在属于训练语料库的数据集上的表现明显优于其他方法；

2024-03-19 18:06:19 1279

原创【反编译二进制代码 + LLM】LLM4Decompile: Decompiling Binary Code with Large Language Models

反编译的目的是将编译后的代码还原为人类可读的源代码，但在名称和结构等细节方面却很难做到。大型语言模型（LLM）在编程任务中大有可为，这促使它们被应用于反编译。然而，目前还没有任何用于反编译的开源 LLM。此外，现有的反编译评估系统主要考虑标记级的准确性，在很大程度上忽略了代码的可执行性，而代码的可执行性是任何程序最重要的特征。因此，我们发布了首个开源反编译 LLM，其范围从 1B 到 33B 不等，对 40 亿个 C 源代码标记和相应的汇编代码进行了预训练。

2024-03-19 17:59:43 774

原创【LLMs + 自动优化Prompt】APE、APO、OPRO、PE2、LongPO、BPO、EVOPROMPT、PromptAgent、IPC

自动优化Prompt：Automatic Prompt Engineering的3种方法自动优化Prompt（2）：PE2、LongPO以及BPO2023年大模型优化方法-自动优化Prompt: APE，OPRO，PE2，EVOPROMPT，PromptAgent，LongPrompts等方法Auto-Prompt | 大模型提示(Prompt)优化新方法IPC：可根据用户意图进行定向优化

2024-03-19 17:42:14 282

原创【LLM+知识蒸馏】Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and

部署大型语言模型（LLM）具有挑战性，因为它们在实际应用中内存效率低、计算密集。为此，研究人员通过使用人类标签进行微调或使用 LLM 生成的标签进行蒸馏，来训练针对特定任务的较小模型。然而，微调和蒸馏需要大量的训练数据，才能达到与 LLM 相当的性能。我们逐步引入蒸馏法，这是一种新的机制，（a）训练的模型更小，性能优于 LLM，（b）通过利用微调或蒸馏法所需的更少的训练数据来实现这一目标。我们的方法在多任务框架内提取 LLM 理由作为训练小型模型的额外监督。

2024-03-15 23:58:16 826

原创【语言模型可解释性】Interpretability in the Wild / transformer-debugger （TDB）工具

机理可解释性研究试图从机器学习模型的内部组件来解释其行为。然而，以往的大多数研究要么只关注小型模型中的简单行为，要么只是笼统地描述大型模型中的复杂行为。在这项工作中，我们通过解释 GPT-2 small如何执行一项名为 "间接对象识别（IOI）"的自然语言任务，弥补了这一差距。我们的解释包含 26 个注意头，分为 7 个主要类别，这些类别是我们利用依赖于因果干预的可解释性方法组合发现的。据我们所知，这项研究是在语言模型中 "wild "反向设计自然行为的最大规模端到端尝试。我们使用三个定量标准，

2024-03-15 13:57:48 843

原创问题解决：Command “python setup.py eg9_ info“ failed with error code 1 in /tmp/pip-build- 0aa4y6yw/aiohtt

在用pip下载第三方包 geoip2时，报错；在更新pip时依旧报相似错误。

2024-03-14 17:22:00 983

原创【文本2视频+姿势跟随数字人】Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free Videos

生成文字可编辑、姿势可控制的人物视频是创造各种数字人类的迫切需求。然而，这项任务一直受限于缺乏以视频与姿势字幕配对为特征的综合数据集和视频先验生成模型。在这项工作中，我们设计了一种新颖的两阶段训练方案，可以利用容易获得的数据集（即图像姿势配对和无姿势视频）和预训练的文本到图像（T2I）模型来获得姿势可控的人物视频。具体来说，在第一阶段，仅使用关键点-图像对生成可控的文本-图像。我们学习一个零初始化卷积编码器来编码姿势信息。

2024-03-13 21:43:56 1332

原创【跨模态转换】音乐生成舞蹈/舞蹈生成音乐

代码地址（无）2020.9代码地址（无）2020.2 Computer Vision and Pattern Recognition代码地址（无）2019.11 NeurIPS 2019。

2024-03-13 21:29:48 333

原创【动作生成】MoMask: Generative Masked Modeling of 3D Human Motions

我们介绍了用于文本驱动三维人体运动生成的新型遮罩建模框架 MoMask。MoMask 采用分层量化方案，将人体运动表示为具有高保真细节的多层离散运动标记。从底层开始，通过矢量量化获得运动标记序列，然后推导出递增阶次的残余标记，并将其存储在层次结构的后续层中。随后是两个不同的双向变换器。对于基础层的运动标记，指定了一个屏蔽变换器来预测随机屏蔽的运动标记，并以训练阶段的文本输入为条件。在生成（即推理）阶段，从一个空序列开始，我们的屏蔽变换器会反复填补缺失的标记；

2024-03-13 21:03:33 623

原创【人体动作生成-综述】Human Motion Generation: A Survey

人体运动生成旨在生成自然的人体姿势序列，在现实世界的应用中显示出巨大的潜力。近来，运动数据采集技术和生成方法取得了长足进步，为人类运动生成技术的发展奠定了基础。该领域的大部分研究都集中在根据条件信号（如文本、音频和场景背景）生成人体运动。虽然近年来取得了重大进展，但由于人体运动的复杂性及其与条件信号之间的隐含关系，这项任务仍面临挑战。在本调查报告中，我们对人类运动生成进行了全面的文献综述，据我们所知，这在该领域尚属首次。我们首先介绍了人体运动和生成模型的背景，

2024-03-13 20:50:11 1041

原创【视觉语言模型】DeepSeek-VL: Towards Real-World Vision-Language Understanding

我们推出的是一个开源的视觉语言（VL）模型，专为真实世界的视觉和语言理解应用而设计。我们的方法围绕三个关键维度展开：我们努力确保数据的多样性和可扩展性，并广泛涵盖现实世界的各种场景，包括网页截图、PDF、OCR、图表和基于知识的内容，旨在全面呈现实际语境。此外，我们还根据真实用户场景创建了用例分类法，并据此构建了指令调整数据集。利用该数据集进行的微调大大改善了模型在实际应用中的用户体验。

2024-03-13 12:45:10 1025

原创问题解决：在用conda激活环境时输入conda activate XXX 报错 CommandNotFoundError: Your shell has not been properly conf

在用conda激活环境时输入conda activate XXX 报错。

2024-03-13 12:36:51 1094

原创【LLM+错误信息检测】DELL: Generating Reactions and Explanations for LLM-Based Misinformation Detection

大型语言模型受限于事实性和幻觉方面的挑战，无法直接用于判断新闻文章的真实性，而事实准确性是最重要的。在这项工作中，我们提出了DELLLLM 可以生成新闻反应，以代表不同的观点，并模拟用户与新闻的交互网络；LLM 可以生成代理任务（如情感、立场）的解释，以丰富新闻文章的上下文，并产生专门从事新闻理解各个方面的专家；LLM 可以合并特定任务的专家，并通过合并不同专家的预测和置信度分数来提供整体预测。

2024-03-12 18:02:06 627

原创【LLM+时间序列分析】Position Paper: What Can Large Language Models Tell Us about Time Series Analysis

时间序列分析对于理解各种现实世界系统和应用中固有的复杂性至关重要。虽然大型语言模型（LLMs）最近取得了长足进步，但具备时间序列分析能力的人工通用智能（AGI）的发展仍处于初级阶段。大多数现有的时间序列模型严重依赖于领域知识和大量的模型调整，主要侧重于预测任务。在本文中，我们认为目前的LLM有可能彻底改变时间序列分析，从而促进高效决策，并向更普遍的时间序列分析智能形式迈进。这种进步会带来广泛的可能性，包括模式切换和时间序列问题解答。

2024-03-12 17:51:11 1032

原创【LLM + 错误信息】Can LLM-Generated Misinformation Be Detected?

大型语言模型（LLM）的出现产生了变革性的影响。然而，像 ChatGPT 这样的大型语言模型有可能被用来生成错误信息，这给网络安全和公众信任带来了严重问题。一个基本的研究问题是：LLM 生成的错误信息会比人工编写的错误信息造成更大的伤害吗？我们建议从检测难度的角度来解决这个问题。我们首先建立了LLM 生成的错误信息分类法。然后，我们对现实世界中利用 LLM 生成错误信息的潜在方法进行了分类和验证。然后，通过广泛的实证调查。

2024-03-12 15:46:15 723

原创【ICLR‘24 】ICLR‘24论文情况及rubattal

智能体能力(40篇)多智能体(11篇)智能体评测(22篇)智能体应用(25篇)论文详情见文首链接。

2024-03-11 11:08:12 107

原创【LLM+三维场景】3D-GPT: Procedural 3D MODELING WITH LARGE LANGUAGE MODELS

在追求高效的自动内容创建过程中，利用可修改参数和基于规则的系统进行程序生成是一种很有前途的方法。然而，由于其复杂性，需要对规则、算法和参数有深入的了解，这可能是一项艰巨的工作。为了减少工作量，我们引入了 3D-GPT 框架，该框架利用大型语言模型（LLM）进行指令驱动的 3D 建模。3D-GPT 将大型语言模型定位为熟练的问题解决者，将程序化三维建模任务分解为可访问的片段，并为每个任务指定合适的agent。任务派遣agent;概念化agent;建模agent。

2024-03-10 14:27:03 1003

原创【提示+图像编辑】Prompt-to-Prompt Image Editing with Cross Attention Control

最近的大规模文本驱动合成模型因其能够根据给定的文本提示生成高度多样化的图像而备受关注。这种基于文本的合成方法对习惯于口头描述自己意图的人类特别有吸引力。因此，将文本驱动的图像合成扩展到文本驱动的图像编辑也就顺理成章了。对于这些生成模型来说，编辑是一项挑战，因为编辑技术的一个固有属性是保留大部分原始图像，而在基于文本的模型中，即使对文本提示稍作修改，也往往会导致完全不同的结果。最先进的方法通过要求用户提供空间遮罩来定位编辑，从而忽略了遮罩区域内的原始结构和内容，从而缓解了这一问题。

2024-03-10 14:16:02 670

原创【LMMs prompt优化】Intent-based Prompt Calibration

提示工程是一项具有挑战性的重要任务，因为大语言模型（LLM）对给定的提示具有高度敏感性，而且文本任务指令本身具有模糊性。自动提示工程对于优化 LLM 的性能至关重要。最近的研究表明， LLMs有能力通过使用元提示）自动进行提示工程，元提示结合了上次试验的结果，并提出了改进的提示。然而，这需要一个高质量的基准来比较不同的提示，而在现实世界的许多使用案例中，很难获得这种基准，而且成本高昂。在这项工作中，我们引入了一种新的自动提示工程方法，使用校准过程根据用户意图迭代改进提示。

2024-03-09 22:29:08 1117

原创【指令微调数据集生成】Learning to Generate Instruction Tuning Datasets for Zero-Shot Task Adaptation

Bonito将未注明的文本转换为特定任务的训练数据集，以便进行指令调整。我们的目标是在用户的专用私人数据上实现大型语言模型的零样本任务调整。我们在一个新的大规模数据集上对 Bonito 进行了训练，该数据集包含 165 万个示例，是通过将现有的指令调整数据集重新混合成元模板而创建的。输入：未注明的文本和任务属性；输出：包括指令和响应。我们使用Bonito为七个数据集生成合成任务（这些数据集来自三个任务类型：是非题QA、提取题QA和自然语言推理）并调整语言模型。

2024-03-09 22:10:16 1102

原创【RAG综述】Retrieval-Augmented Generation for AI-Generated Content: A Survey

人工智能生成内容（AIGC）的发展得益于模型算法的进步、可扩展的基础模型架构以及大量高质量数据集的可用性。虽然 AIGC 已经取得了令人瞩目的成绩，但它仍然面临着各种挑战，例如难以维护最新的长尾知识、数据泄漏的风险以及与训练和推理相关的高昂成本。检索增强生成（RAG）是最近出现的一种应对这些挑战的范例。特别是，RAG 引入了信息检索过程，通过从可用数据存储中检索相关对象来增强 AIGC 结果，从而提高准确性和鲁棒性。在本文中，我们全面回顾了将 RAG 技术集成到 AIGC 场景中的现有工作。

2024-03-09 21:42:16 1373

原创【LLM数据集综述】Datasets for Large Language Models: A Comprehensive Survey

本文开始探索大型语言模型（LLM）数据集，这些数据集在 LLM 的显著进步中发挥着至关重要的作用。这些数据集是基础架构，类似于支撑和培育 LLM 发展的根系统。因此，对这些数据集的研究成为研究中的一个重要课题。预训练语料库；指令微调数据集；偏好数据集；评估数据集；传统自然语言处理 (NLP) 数据集。调查揭示了当前面临的挑战，并指出了未来研究的潜在途径。此外，还对现有的数据集资源进行了全面回顾，包括来自444 个数据集的统计数据，涵盖8 个语言类别和32 个领域。数据集统计包含。

2024-03-09 21:27:55 1282

原创【LLM高效训练】GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection

大型语言模型（LLM）的训练面临着巨大的内存挑战，这主要是由于权重和优化器状态的大小不断增加。常见的内存缩减方法，如低秩适应（Low-rank adaptation，LoRA），是在每一层冻结的预训练权重中添加一个可训练的低秩矩阵，从而减少可训练参数和优化器状态。然而，这些方法在预训练和微调阶段的表现通常不如使用全阶权重进行的训练，因为它们将参数搜索限制在低阶子空间，改变了训练动态，而且可能需要全阶暖启动。在这项工作中，我们提出了梯度低阶投影（GaLore）

2024-03-09 21:13:55 1038

空空如也

空空如也