自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(416)
  • 问答 (1)
  • 收藏
  • 关注

翻译 SPEECHTOKENIZER: UNIFIED SPEECH TOKENIZER FOR SPEECH LANGUAGE MODELS翻译

当前的语音大语言模型建立在离散语音表示的基础上,可分为语义token和声学token。然而,现有的语音token并不是专门为语音语言建模而设计的。为了评估语音token是否适合构建语音语言模型,我们建立了第一个基准 SLMTokBench。我们的结果表明,语义token和声学token都不是理想的选择。因此,我们提出了 SpeechTokenizer,一种用于语音大语言模型的统一语音tokenizer。SpeechTokenizer 采用带有残差矢量量化 (RVQ) 的编码器-解码器架构。

2024-08-22 04:27:39 5

翻译 Executable Code Actions Elicit Better LLM Agents翻译

大语言模型 (LLM) Agent能够执行广泛的操作,例如调用工具和控制机器人,在应对现实世界的挑战方面表现出巨大的潜力。LLM Agent通常被提示以通过生成预定义格式的 JSON 或文本来执行操作,这通常受到受限的操作空间(例如,预定义工具的范围)和受限的灵活性(例如,无法组合多个工具)的限制。。与 Python 解释器集成后,CodeAct 可以执行代码操作并动态修改先前的操作或通过多轮交互根据新的观察发出新操作。

2024-08-19 04:29:06 7

翻译 WavLLM: Towards Robust and Adaptive Speech Large Language Model翻译

大语言模型 (LLM) 在过去几年中取得了飞速发展,在众多自然语言处理 (NLP) 任务中达到甚至超过人类的熟练程度。这些令人印象深刻的能力归功于对大量训练数据集和大量模型参数的大规模训练,以及先进的训练方法,如指令遵循协议和从人类反馈中强化学习 (RLHF) 算法。随着大语言模型取得重大突破,人们的注意力越来越多地转向多模态大型语言模型 (MLLM) 的功能和进步,这些模型具有聆听、说话、查看和创建内容的能力。

2024-08-14 22:08:18 14

翻译 OpenDevin: An Open Platform for AI Software Developers as Generalist Agents翻译

在大型语言模型 (LLM) 的支持下,面向用户的 AI 系统(例如 ChatGPT)越来越能够执行复杂的任务,例如准确响应用户问题、解决数学问题和生成代码。特别是,AI Agent(可以感知外部环境并对其采取行动的系统)最近受到了越来越多的研究关注。它们正朝着执行复杂任务的方向发展,例如开发软件、浏览现实世界的网站、做家务,甚至进行科学研究。随着人工智能Agent能够解决复杂问题,它们的开发和评估也变得具有挑战性。最近,人们在创建开源框架以促进Agent的开发方面做出了许多努力。

2024-08-11 19:14:39 14

翻译 SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation翻译

以 ChatGPT 和 LLaMA 为代表的大型语言模型 (LLM) 凭借大规模参数展现出卓越的能力。缩放定律表明,模型大小和数据量在提高性能方面起着关键作用。对于语音生成模型,最近人们努力将训练数据扩展到近 10 万小时的自然语音,这展示了其在上下文语音生成方面的卓越能力,特别是在泛化到未见过的说话人方面。从信息建模的角度来看,当前的大规模语音生成方法可分为两种类型:1)集成生成,涉及同时建模语义和声学信息,而无需在语音生成过程中进行解耦。

2024-08-09 04:38:56 15

翻译 SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities翻译

大型语言模型在各种自然语言处理任务上表现惊人。同时,多模态大型语言模型(如 GPT-4、PALM-E 和 LLaVA)探索了 LLM 理解多模态信息的能力。然而,当前的 LLM 与通用人工智能 (AGI) 之间存在显著差距。首先,大多数当前的 LLM 只能感知和理解多模态内容,而不能自发生成多模态内容。其次,图像和语音等连续信号无法直接适应用于接收离散 token 的 LLM。

2024-08-03 20:04:47 53

翻译 A Survey on LoRA of Large Language Models翻译

预训练语言模型参数规模的快速增加提高了其泛化能力并带来了涌现能力。在过去的几年中,预训练语言模型的参数规模增加了数千倍(例如,从330M参数的BERT到540B参数的PaLM)。这些具有大参数规模的预训练语言模型被称为大语言模型(LLM)。然而,由于LLM的知识边界,它们在某些下游任务上的能力仍然有限。为了扩展知识边界,仍然有必要在下游任务上对LLM进行微调。

2024-07-28 20:10:57 31

翻译 SPREADSHEETLLM: Encoding Spreadsheets for Large Language Models翻译

电子表格的特点是其广泛的二维网格、灵活的布局和多样的格式选项,这对大型语言模型 (LLM) 提出了重大挑战。为了应对这一挑战,我们引入了,开创了一种高效的编码方法,旨在释放和优化 LLM 对电子表格的强大理解和推理能力。最初,我们提出了一种结合单元格地址、值和格式的原始序列化方法。然而,这种方法受到 LLM 的token约束的限制,使其不适用于大多数应用程序。为了应对这一挑战,我们开发了,这是一个创新的编码框架,可以有效地为 LLM 压缩电子表格。

2024-07-25 04:40:01 67

翻译 The Falcon Series of Open Language Models翻译

语言模型的持续发展主要得益于流行的基于 Transformer 的配方的独特可扩展性。。预训练计算预算的增加会以一致且可预测的方式系统地提高语言建模能力。Falcon-180B 是第一个公开记录的 GPT-3 大小模型,遵循 (Kaplan et al., 2020) 更新的缩放定律建议,总预训练长度为 3,5000 亿个token,无需任何上采样。。为了高效地扩大预训练规模,并解耦预训练和推理计算,越来越大的模型应该在更大的语料库上进行更长时间的训练。

2024-07-20 03:58:31 42

翻译 Instruction Pre-Training: Language Models are Supervised Multitask Learners翻译

在通用人工智能的道路上,多任务学习作为一种有前途的方法出现了。然而,将有监督多任务学习扩展到必要的程度是非常具有挑战性的。这促使 GPT-2 探索无监督式多任务学习:通过因果语言建模对原始语料库进行预训练,这有助于扩大训练数据。随着时间的推移,无监督式多任务学习已经发展成为预训练语言模型 (LM) 的标准方法,在本文中被称为 Vanilla Pre-Training。尽管无监督方法取得了成功,但有监督多任务学习仍然具有巨大的前景。

2024-07-14 19:01:24 55

翻译 LLMFactor: Extracting Profitable Factors through Prompts for Explainable Stock Movement Prediction翻译

人工智能 (AI) 已成为金融领域的重要应用,可解决各种挑战,例如预测股票走势、提供机器人咨询服务和管理风险。在这些任务中,预测股票趋势尤为重要,因为它可以利用历史数据来制定交易策略并确定买入或卖出股票的机会。尤金·法玛提出的有效市场假说 (EMH) 认为,股票价格反映了所有可用信息,因此很难预测未来的价格走势。然而,后续研究发现了市场效率的局限性,强调了信息不对称和非理性行为等现象如何导致偏离完美效率。这些观察为研究人员通过识别和利用市场低效率来寻求超额市场回报铺平了道路。

2024-07-11 04:22:15 70

翻译 Mitigate Position Bias in Large Language Models via Scaling a Single Dimension翻译

长上下文大型语言模型 (LLM) 最近在社区中引起了广泛关注,使 LLM 能够处理更长、更复杂的任务,例如长上下文问答和存储库级代码理解。然而,最近的研究表明,这些长上下文 LLM 难以有效且一致地利用上下文中提供的所有信息,表现出一种称为“lost in the middle”的位置偏差,这意味着 LLM 倾向于忽略提示中间的信息,即使它们可以很好地利用提示开头和结尾的信息。这个问题几乎出现在所有 LLM 中,无论是纯解码器模型还是编码器-解码器模型、强大的模型还是小型 LLM。

2024-07-06 19:26:24 49

翻译 Token-level Direct Preference Optimization翻译

大型语言模型 (LLM) 已在各种领域展现出显著的泛化能力,包括文本摘要、代码编写,甚至遵循人类指令。为了使 LLM 与人类意图保持一致,来自人类反馈的强化学习 (RLHF) 已成为一种非常有效的方法,体现了风格和道德价值观。这些方法通常涉及奖赏模型的训练,然后使用强化学习 (RL) 对策略模型进行微调。直接偏好优化 (DPO) 引入了一种直接有效的技术,使用成对比较来训练 LLM,而无需明确建立奖赏模型。

2024-06-30 21:33:56 56

翻译 Mobile-Agent-v2翻译

移动设备操作任务正日益成为一种流行的多模态AI应用场景。目前的多模态大语言模型(MLLM)受限于训练数据,无法有效发挥操作助手的作用,而基于MLLM的Agent通过工具调用来增强能力,正逐渐应用于该场景。然而,——在现有工作的单Agent架构下难以有效解决。这是由于token序列过长以及文本图像数据格式交替限制了性能。为了有效解决这些导航挑战,我们提出了Mobile-Agent-v2,一种用于移动设备操作辅助的多Agent架构。该架构由三个Agent组成:规划Agent、决策Agent和反思Agent。

2024-06-27 04:15:07 89

翻译 Fewer Truncations Improve Language Modeling翻译

大型语言模型 (LLM) 在许多自然语言处理和编码基准以及复杂的现实任务中取得了前所未有的成功。这一显著进步是由对大量未标记文档的大规模预训练推动的。在格式化训练输入时,简单地将每个文档填充到固定长度是低效的,因为短文档会导致过多的填充。相反,常见的做法是将所有文档拼接在一起,然后将它们拆分为与模型的上下文长度完全相同的序列。通常在每个文档的末尾添加一个token标记(例如,),以指示每个训练序列内的文档边界。

2024-06-23 15:27:02 41

翻译 What matters when building vision-language models?翻译

我们确定了各种工作采用不同设计选择的两个领域:(a)

2024-06-16 14:31:59 80

翻译 DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model翻译

过去几年,大型语言模型 (LLM) 经历了快速发展,让我们看到了通用人工智能 (AGI) 的曙光。一般来说,LLM 的智能会随着参数数量的增加而提高,从而能够在各种任务中展现出新兴的能力。然而,这种改进是以更大的训练计算资源和潜在的推理吞吐量下降为代价的。这些限制带来了重大挑战,阻碍了 LLM 的广泛采用和使用。为了解决这个问题,我们推出了 DeepSeek-V2,这是一个强大的开源混合专家 (MoE) 语言模型,其特点是通过创新的 Transformer 架构实现经济的训练和高效的推理。

2024-06-08 18:03:35 256

翻译 Chameleon: Mixed-Modal Early-Fusion Foundation Models翻译

最近的多模态基础模型被广泛采用,但仍然单独对不同模态进行建模,通常使用特定模态的编码器或解码器。这可能会限制他们跨模态集成信息并生成可包含任意图像和文本序列的多模态文档的能力。在本文中,我们提出了 Chameleon,这是一系列混合模态基础模型,能够生成任意交替的文本和图像内容的混合序列并进行推理(图 2-4)。这允许完整的多模态文档建模,这是标准多模态任务的直接概括,例如图像生成、图像理解和推理以及纯文本LLM。

2024-05-30 03:43:44 242

翻译 AMUSED: AN OPEN MUSE REPRODUCTION翻译

我们提出了 aMUSEd,一个开源的、轻量级的屏蔽图像模型 (MIM),用于基于 MUSE 的文本到图像生成。aMUSEd 拥有 MUSE 10% 的参数,专注于快速图像生成。我们认为,与文本到图像生成中流行的潜在扩散方法相比,MIM 尚未得到充分开发。与潜在扩散相比,MIM 需要更少的推理步骤并且更具可解释性。此外,MIM 可以进行微调以仅使用单个图像来学习其他样式。我们希望通过展示 MIM 在大规模文本到图像生成方面的有效性并发布可复现的训练代码来鼓励对 MIM 的进一步探索。

2024-05-25 17:51:48 55

翻译 Ring Attention with Blockwise Transformers for Near-Infinite Context翻译

Transformer 已成为许多最先进的人工智能系统的支柱,这些系统在解决各种人工智能问题上表现出了令人印象深刻的性能。Transformer 通过使用自注意力和位置前馈机制的架构设计实现了这一成功。然而,扩大 Transformers 的上下文长度是一个挑战,因为 Transformers 固有的架构设计,即自注意力,其内存成本与输入序列长度呈二次方关系,这使得扩展到更长的输入序列具有挑战性。

2024-05-23 04:45:01 175

翻译 WORLD MODEL ON MILLION-LENGTH VIDEO AND LANGUAGE WITH BLOCKWISE RINGATTENTION翻译

当前的世界建模方法大多局限于短的语言序列或短的图像和短片序列。导致模型缺乏对世界上难以用文本或短片表示的部分的理解,并且无法处理复杂的长篇语言和视觉任务。视频序列中的时间结构提供了语言中缺失的有用信息,或者在静态图像和短片中不太明显的信息。长语言序列能编码短序列无法编码的信息,这对于长文档检索或编码等各种应用至关重要。长视频提供了短视频无法掌握的丰富背景,展示了视频时间维度内的场景如何联系、事件的发展以及动作的因果关系。

2024-05-18 19:52:48 65

翻译 From r to Q∗ : Your Language Model is Secretly a Q-Function翻译

人类反馈强化学习 (RLHF) 已成为将大型语言模型 (LLM) 与人类意图结合起来的事实上的方法,因为它在从摘要到指令遵循的广泛应用中取得了成功。通过从人类token的比较中学习奖赏函数,RLHF 能够捕获实际情况下无法描述的复杂目标。继 (Ziegler et al., 2020) 的成功之后,许多工作都考虑使用强化学习(RL)技术从各个领域的大型模型中进行训练和采样的新算法。特别是直接对齐方法,例如直接偏好优化(DPO),由于其简单性而在最近几个月获得了关注。

2024-05-15 05:06:45 144

翻译 Position Engineering: Boosting Large Language Models through Positional Information Manipulation翻译

大型语言模型 (LLM) 的最新进展表明,在实现通用人工智能方面取得了重大进展。这些模型展现出广泛的功能,例如上下文学习、根据文档回答问题、解决复杂的数学问题以及生成代码。在使用 LLM 时,用户提示被输入,转换成token序列,然后通过多个注意力层进行处理。这些注意力层使用从token序列中得出的两种信息:(i) 语义信息,其中token被转换为文本嵌入;(ii) 位置信息,其中token的索引被转换为位置嵌入。然后,注意力机制将文本和位置嵌入结合起来,以预测序列中下一个token的分布。

2024-05-10 05:00:12 62

翻译 InternLM-XComposer2翻译

近年来,大型语言模型 (LLM) 领域取得了显著进展。其中,ChatGPT 等模型彻底改变了人类与技术的互动。与此同时,各种开源 LLM(如 Llama、Mistra、InternLM、QWen、GLM 和 Baichuan)也为 LLM 的定制化提供了可能。在这些开源基础上,社区在多模态大型语言模型 (MLLM) 方面取得了长足进步。这些 MLLM 擅长解释图像并参与文本图像对话,展现出令人印象深刻的多模态理解能力。

2024-05-05 19:52:48 88

翻译 InternLM-XComposer翻译

在过去的一年中,大型语言模型 (LLM) 的开发取得了令人瞩目的进展。这些最先进的模型,包括 ChatGPT、GPT4 和 PaLM 2,已经展现出前所未有的遵循人类指令和解决开放式任务的能力。受到 PaLM-E 和 BLIP2 成功的启发,有一种很有前途的方法可以通过利用视觉特征作为 LLM 的额外输入来扩展用于视觉语言任务的语言模型。

2024-05-01 04:41:01 69

翻译 Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models翻译

随着大型语言模型 (LLM) 的快速发展,为多模态输入提供令人印象深刻的功能正在成为当前视觉语言模型 (VLM) 的重要组成部分。为了弥合模态之间的差距,开展了几项研究,将视觉与从图像到视频的LLM结合起来。尽管取得了这些进步,学术研究与 GPT-4 和 Gemini 等经过大量数据和资源训练的成熟模型的实力之间仍然存在巨大差距。对于视觉本身来说,图像分辨率是明确的核心部分,尽管周围环境具有最小的视幻觉。为此,人们进行了更多的尝试来进一步提高当前 VLM 的视觉理解。

2024-04-27 04:44:57 122

翻译 Can Large Language Models Beat Wall Street? Unveiling the Potential of AI in Stock Selection翻译

资本市场是经济体内资本配置的有效渠道,其价格发现过程在维护金融体系的健康和稳定方面发挥着关键作用。价格发现过程取决于多种因素的复杂相互作用,包括公司和行业的具体因素、宏观经济数据、动量效应以及政治和地缘政治影响。市场参与者共同参与这一复杂的价格发现机制,从而确保金融市场的有效运作。选股本质上是一种价格发现机制,市场参与者通过该机制关注被认为“定价错误”的股票,从而提供相对于更广泛市场有吸引力的回报潜力。这一原则构成了价值投资的本质。

2024-04-22 04:37:04 99

翻译 Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow翻译

在数据驱动的世界中,金融、气象、能源等各个行业每天都会产生大量异构数据。这种范围广泛、形式多样的数据包含了重要的见解,可用于从预测金融趋势到监控能源消耗等众多应用。最近,大型语言模型(LLM)的进步,特别是 ChatGPT 和 GPT-4 的出现,彻底改变了人工智能研究,并为先进的人工智能系统铺平了道路。利用思维链提示、人类反馈强化学习 (RLHF) 和指令遵循学习,LLM在对话、推理和生成方面表现出了卓越的能力。然而,面对数据的巨大和复杂性,LLM面临着管理、处理和显示数据的巨大挑战。

2024-04-18 05:03:23 128

翻译 AUTOACT: Automatic Agent Learning from Scratch via Self-Planning翻译

语言agent利用大语言模型(LLM)强大的推理能力基于外部世界的观察来生成可执行动作,已成为旨在解决复杂交互任务的人工智能系统的重要组成部分。赋予LLM这种交互能力的过程被称为其中规划起着关键作用,它负责分解复杂的任务,调用外部工具,反思过去的错误,并聚合来自各种来源的信息以达到最终目标。有很多工作直接促使闭源现成的LLM制定特定任务的计划。尽管闭源LLM非常方便和灵活,但它不可避免地会遇到未解决的问题,因为它们的可访问性通常要付出高昂的代价,而且它们的黑盒性质使得结果复现变得困难。

2024-04-04 04:40:55 114

翻译 Efficient Tool Use with Chain-of-Abstraction Reasoning翻译

推理,这是一种鲁棒且高效的方法,可供LLM使用工具执行多步骤推理。如图 1 所示,LLM 进行了微调,目标是使用抽象占位符构建推理链。占位符不会影响LLM的推理流程,随后会填充从专业工具中检索到的特定知识,为最终答案的生成奠定基础。

2024-03-31 04:15:41 112

翻译 KNOWLEDGE FUSION OF LARGE LANGUAGE MODELS翻译

随着 GPT 和 LLaMA 系列等大型语言模型 (LLM) 在广泛的自然语言处理 (NLP) 任务中不断取得成功,创建自己的 LLM 已成为企业的战略当务之急。然而,与LLM开发相关的成本是天文数字。除了需要大量的训练数据、先进的技术、大量的计算资源和熟练的专家外,开发过程还对能源消耗和环境造成巨大的压力。虽然这些LLM在结构和功能上存在差异,但它们在一系列 NLP 任务中具有相似的能力。

2024-03-29 04:44:22 88

翻译 Common 7B Language Models Already Possess Strong Math Capabilities翻译

长期以来,数学能力一直被认为非常具有挑战性,以至于它们被认为只能大规模地出现在通用语言模型中。例如,(Wei et al., 2022a,b) 的研究表明,只有参数大小超过 500 亿的模型才能获得有意义的准确性或从数学问题的思维链处理中受益。为较小的语言模型配备数学能力的策略包括创建特定于数学的基础模型,并在数千亿个与数学相关的预训练数据上进行训练。然而,此类模型的准确性仍然较低。例如,Llemma-7B 在 GSM8K 数据集上仅达到 36.4%,在 MATH 数据集上仅达到 18.0%。

2024-03-25 04:09:09 48

翻译 A Multimodal Foundation Agent for Financial Trading: Tool-Augmented, Diversified, and Generalist翻译

金融市场对于经济稳定、促进资本配置和风险管理至关重要。由技术分析策略开发的金融交易系统通过实现高效交易来增强这些市场。基于规则的交易系统是僵化的,难以适应市场波动,常常导致在不断变化的市场中表现不佳。基于强化学习的系统表现出增强的适应性,但遇到了巨大的障碍,例如需要大量的训练数据和决策过程的不可解释性。此外,他们很难在不同的市场条件下进行泛化,对市场噪音敏感,并且往往无法将新闻和报告等多模态市场情报整合到他们的分析中。

2024-03-21 05:41:19 157

翻译 SelectIT: Selective Instruction Tuning for Large Language Models翻译

大型语言模型(LLM)因其在指令遵循和解决复杂问题方面的令人印象深刻的能力而备受关注。提高LLM性能的一个关键方面是指令微调(IT),其中涉及使用成对的指令数据对LLM进行有监督调整,这对于提高模型准确响应人类指令的能力至关重要。最近的突破性研究,例如 LIMA,强调了指令数据的质量比数量至关重要。与仅仅增加数据集大小的方法相反,精心挑选的、较小的、较高质量的数据集可以显着提高LLM的表现。尽管出现了各种选择高质量数据的方法,但这些方法通常依赖于外部资源并限制了更广泛的实现。

2024-03-10 19:47:50 64

翻译 Topologies of Reasoning: Demystifying Chains, Trees, and Graphs of Thoughts翻译

大型语言模型 (LLM) 已成为现代机器学习 (ML) 的主要工具。源于简单的自然语言处理(NLP)任务,其广泛的潜力已迅速应用于其他领域,例如逻辑推理、规划、医学等。由于LLM的主要交流媒介是自然语言,提示工程已成为一个受到广泛关注和重视的新研究领域。首先,它使任何人都易于使用和尝试,从而实现了LLM和整个生成式人工智能领域的民主化。其次,它具有成本效益,不需要昂贵且耗时的微调或预训练。精心设计 LLM 问题以提高结果的准确性以及逻辑或代数查询等任务的成本效益具有挑战性。

2024-03-04 04:53:47 96

翻译 The Power of Noise: Redefining Retrieval for RAG Systems翻译

大型语言模型 (LLM) 在各种任务中表现出了前所未有的熟练程度,从文本生成和复杂问答到信息检索 (IR) 任务。然而,LLM在处理长上下文方面受到限制,这一限制导致他们更加依赖他们预训练的知识。这种限制不仅限制了他们有效管理扩展对话(例如书籍或长时间对话)的能力,而且还增加了产生幻觉的可能性,即模型产生事实上不正确或无意义信息的情况。为了提高LLM生成的答案的准确性,检索增强生成(RAG)系统已成为一种有前景的解决方案。

2024-02-25 04:51:53 198

翻译 TOOLLLM: FACILITATING LARGE LANGUAGE MODELS TO MASTER 16000+ REAL-WORLD APIS翻译

工具学习旨在释放大语言模型 (LLM) 的力量,以有效地与各种工具 (API) 交互以完成复杂的任务。通过将 LLM 与 API 集成,我们可以极大地扩展它们的效用,并使它们能够充当用户和庞大的应用程序生态系统之间的高效中介。尽管 LLaMA 等开源LLM已经通过指令微调实现了多种功能,但它们在执行更高级别任务方面仍然缺乏复杂性,例如与工具(API)适当交互以完成复杂的人类指令。这种缺陷是因为当前的指令微淘主要集中在基本语言任务上,而相对忽视了工具使用领域。

2024-02-20 04:42:39 373

翻译 Deductive Closure Training of Language Models for Coherence, Accuracy, and Updatability翻译

人们越来越有兴趣使用语言模型(LM)作为信息来源和事实验证工具。但如今的语言模型无法稳健地执行这两项任务:它们很容易生成事实上不正确、自相矛盾的信息,并且难以用新信息进行更新。然而,即使它们对事实的判断不完美,当前的 LM 也是文本片段之间事实关系的相当可靠的模型:它们可以识别语句之间的逻辑和概率关系,并根据作为输入提供的新信息生成文本。例如,LM 无法回答以下问题:How old was Charlie Chaplin when he died?

2024-02-10 04:27:47 62

翻译 Self-Rewarding Language Models翻译

使用人类偏好数据对齐大型语言模型 (LLM) 可以极大地提高预训练模型的指令遵循性能。基于人类反馈的强化学习 (RLHF) 的标准方法从这些人类偏好中学习奖赏模型。然后奖赏模型被冻结并用于 RL 训练 LLM,例如通过 PPO。最近的一个替代方案是完全避免训练奖赏模型,并直接使用人类偏好来训练 LLM,如直接偏好优化 [DPO]。在这两种情况下,该方法都受到人类偏好数据的大小和质量的瓶颈,并且在 RLHF 的情况下,还受到从它们训练的参数固定的奖赏模型的质量瓶颈。

2024-02-04 04:52:09 71

翻译 Mixtral of Experts翻译

在本文中,我们提出了 Mixtral 8x7B,这是一种具有开放权重的稀疏混合专家模型 (SMoE),在 Apache 2.0 下获得许可。Mixtral 在大多数基准测试中都优于 Llama 2 70B 和 GPT-3.5。由于它仅对每个token使用其参数的子集,因此 Mixtral 可以在小批量大小下实现更快的推理速度,并在大批量大小下实现更高的吞吐量。Mixtral 是一个稀疏的混合专家网络。它是一个纯解码器模型,其中前馈块从 8 个不同的参数组中进行选择。

2024-01-29 03:24:53 83

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除