nlp
文章平均质量分 90
Arachis_X
这个作者很懒,什么都没留下…
展开
-
【LLMs 低成本】LLM Cascades with Mixture of Thoughts Representations for Cost-efficient Reasoning
GPT-4 等大型语言模型(LLM)在各种任务中表现出了卓越的性能,但这种强大的性能往往伴随着使用付费 API 服务的高昂费用。在本文中,我们的动机是研究建立一个 LLM 级联,以节省使用 LLM 的成本,尤其是在执行推理(如数学、因果关系)任务时。我们的级联管道遵循的直觉是,较简单的问题可以用较弱但更经济的 LLM 来解决,而只有具有挑战性的问题才需要较强和较昂贵的 LLM。原创 2024-04-12 18:04:36 · 825 阅读 · 0 评论 -
【Zero-Shot 文本到语音】VoiceCraft: Zero-Shot Speech Editing and Text-to-Speech in the Wild
我们介绍的VoiceCraft是一种标记填充神经编解码语言模型,它在有声读物、网络视频和播客的语音编辑和零样本文本到语音(TTS)方面都达到了最先进的性能。VoiceCraft 采用Transformer解码器架构,并引入了一种标记重新排列程序,该程序结合了因果掩蔽和延迟堆叠技术,可在现有序列中生成语音。在语音编辑任务中,VoiceCraft 生成的编辑语音在自然度方面与未经编辑的录音几乎没有区别,这是由人类进行评估的;在零样本 TTS。原创 2024-04-05 22:13:11 · 634 阅读 · 0 评论 -
【多标签 零样本 主题推理 】Zero-Shot Multi-Label Topic Inference with Sentence Encoders and LLMs
在本文中,我们利用最新的句子编码器和大型语言模型(LLM)对 "definition-wild zero-shot主题推理 "这一具有挑战性的任务进行了全面研究。通过在七个不同的数据集上进行广泛实验,我们发现,与其他 LLM(如 BLOOM 和 GPT-NeoX)相比,ChatGPT-3.5 和 PaLM 等 LLM 表现出更优越的通用性。此外,基于 BERT 的经典句子编码器 Sentence-BERT 的表现优于 PaLM,其性能可与 ChatGPT-3.5 相媲美。原创 2024-03-29 21:53:36 · 245 阅读 · 0 评论 -
【多标签 文档分类 同人文触发警告 新数据集】Trigger Warning Assignment as a Multi-Label Document Classification Problem
触发警告用于警告人们可能存在令人不安的内容。我们将触发警告分配作为一项多标签分类任务来介绍,创建了Webis 触发警告语料库 2022,并随之创建了第一个数据集,该数据集包含来自 Archive of our Own 的 100 万部同人小说作品,每篇文档包含多达 36 种不同的警告。为了提供可靠的触发式警告目录,我们将 4100 万个由同人小说作者指定的自由格式标签整理成第一个全面的触发式警告分类法,将它们映射到机构推荐的 36 种警告。为了确定触发警告的最佳操作方法。原创 2024-03-28 23:15:42 · 763 阅读 · 0 评论 -
【多标签 小样本 意图检测】Dual Class Knowledge Propagation Network for Multi-label Few-shot Intent Detection
多标签意图检测旨在为语句分配多个标签,作为面向任务的对话系统中的一项实用任务,它越来越受到关注。由于对话领域瞬息万变,新意图层出不穷,因此缺乏注释数据的情况促使了多标签少量意图检测的出现。然而,以往的研究被带有多个标签的相同语篇表示所迷惑,忽略了内在的类内和类间交互。为了解决这两个局限性,我们在本文中提出了一种新颖的双类知识传播网络。为了学习具有多个意图的语篇的良好分离表征,我们首先引入了一个包含类名信息的标签语义增强模块。为了更好地考虑类内和类间的固有关系,我们构建了一个实例级和一个类级。原创 2024-03-28 23:03:02 · 784 阅读 · 0 评论 -
【LLMs组合合成 进化算法】Evolutionary Optimization of Model Merging Recipes
我们介绍了进化算法在自动创建强大基础模型方面的新应用。虽然模型合并因其成本效益而成为一种有前途的 LLM 开发方法,但它目前依赖于人类的直觉和领域知识,限制了其潜力。在这里,我们提出了一种进化方法,通过自动发现不同开源模型的有效组合来克服这一局限,利用它们的集体智慧,而无需大量额外的训练数据或计算。我们的方法可在参数空间和数据流空间中运行,从而实现超越单个模型权重的优化。这种方法甚至还能促进跨领域合并,生成类似具有数学推理能力的日语 LLM 这样的模型。原创 2024-03-25 15:44:10 · 1068 阅读 · 0 评论 -
【时间序列语言】Chronos: Learning the Language of Time Series
我们介绍了Chronos,这是一个简单而有效的预训练概率时间序列模型框架。Chronos 使用缩放和量化技术将时间序列值标记为固定词汇,并通过交叉熵损失在这些标记化的时间序列上训练现有的基于transformer的语言模型架构。我们在大量公开数据集上预训练了基于 T5 系列的 Chronos 模型(参数范围从 2 千万到 7.1 亿个不等),并通过高斯过程生成了一个合成数据集作为补充,以提高泛化能力。(a)在属于训练语料库的数据集上的表现明显优于其他方法;原创 2024-03-19 18:06:19 · 1279 阅读 · 0 评论 -
【反编译二进制代码 + LLM】LLM4Decompile: Decompiling Binary Code with Large Language Models
反编译的目的是将编译后的代码还原为人类可读的源代码,但在名称和结构等细节方面却很难做到。大型语言模型(LLM)在编程任务中大有可为,这促使它们被应用于反编译。然而,目前还没有任何用于反编译的开源 LLM。此外,现有的反编译评估系统主要考虑标记级的准确性,在很大程度上忽略了代码的可执行性,而代码的可执行性是任何程序最重要的特征。因此,我们发布了首个开源反编译 LLM,其范围从 1B 到 33B 不等,对 40 亿个 C 源代码标记和相应的汇编代码进行了预训练。原创 2024-03-19 17:59:43 · 774 阅读 · 0 评论 -
【LLMs + 自动优化Prompt】APE、APO、OPRO、PE2、LongPO、BPO、EVOPROMPT、PromptAgent、IPC
自动优化Prompt:Automatic Prompt Engineering的3种方法自动优化Prompt(2):PE2、LongPO以及BPO2023年大模型优化方法-自动优化Prompt: APE,OPRO,PE2,EVOPROMPT,PromptAgent,LongPrompts等方法Auto-Prompt | 大模型提示(Prompt)优化新方法IPC:可根据用户意图进行定向优化原创 2024-03-19 17:42:14 · 284 阅读 · 0 评论 -
【LLM+知识蒸馏】Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and
部署大型语言模型(LLM)具有挑战性,因为它们在实际应用中内存效率低、计算密集。为此,研究人员通过使用人类标签进行微调或使用 LLM 生成的标签进行蒸馏,来训练针对特定任务的较小模型。然而,微调和蒸馏需要大量的训练数据,才能达到与 LLM 相当的性能。我们逐步引入蒸馏法,这是一种新的机制,(a)训练的模型更小,性能优于 LLM,(b)通过利用微调或蒸馏法所需的更少的训练数据来实现这一目标。我们的方法在多任务框架内提取 LLM 理由作为训练小型模型的额外监督。原创 2024-03-15 23:58:16 · 829 阅读 · 0 评论 -
【语言模型 可解释性】Interpretability in the Wild / transformer-debugger (TDB)工具
机理可解释性研究试图从机器学习模型的内部组件来解释其行为。然而,以往的大多数研究要么只关注小型模型中的简单行为,要么只是笼统地描述大型模型中的复杂行为。在这项工作中,我们通过解释 GPT-2 small如何执行一项名为 "间接对象识别(IOI)"的自然语言任务,弥补了这一差距。我们的解释包含 26 个注意头,分为 7 个主要类别,这些类别是我们利用依赖于因果干预的可解释性方法组合发现的。据我们所知,这项研究是在语言模型中 "wild "反向设计自然行为的最大规模端到端尝试。我们使用三个定量标准,原创 2024-03-15 13:57:48 · 843 阅读 · 0 评论 -
【视觉语言模型】DeepSeek-VL: Towards Real-World Vision-Language Understanding
我们推出的是一个开源的视觉语言(VL)模型,专为真实世界的视觉和语言理解应用而设计。我们的方法围绕三个关键维度展开:我们努力确保数据的多样性和可扩展性,并广泛涵盖现实世界的各种场景,包括网页截图、PDF、OCR、图表和基于知识的内容,旨在全面呈现实际语境。此外,我们还根据真实用户场景创建了用例分类法,并据此构建了指令调整数据集。利用该数据集进行的微调大大改善了模型在实际应用中的用户体验。原创 2024-03-13 12:45:10 · 1025 阅读 · 0 评论 -
【LLM+错误信息检测】DELL: Generating Reactions and Explanations for LLM-Based Misinformation Detection
大型语言模型受限于事实性和幻觉方面的挑战,无法直接用于判断新闻文章的真实性,而事实准确性是最重要的。在这项工作中,我们提出了DELLLLM 可以生成新闻反应,以代表不同的观点,并模拟用户与新闻的交互网络;LLM 可以生成代理任务(如情感、立场)的解释,以丰富新闻文章的上下文,并产生专门从事新闻理解各个方面的专家;LLM 可以合并特定任务的专家,并通过合并不同专家的预测和置信度分数来提供整体预测。原创 2024-03-12 18:02:06 · 627 阅读 · 0 评论 -
【LLM+时间序列分析】Position Paper: What Can Large Language Models Tell Us about Time Series Analysis
时间序列分析对于理解各种现实世界系统和应用中固有的复杂性至关重要。虽然大型语言模型(LLMs)最近取得了长足进步,但具备时间序列分析能力的人工通用智能(AGI)的发展仍处于初级阶段。大多数现有的时间序列模型严重依赖于领域知识和大量的模型调整,主要侧重于预测任务。在本文中,我们认为目前的LLM有可能彻底改变时间序列分析,从而促进高效决策,并向更普遍的时间序列分析智能形式迈进。这种进步会带来广泛的可能性,包括模式切换和时间序列问题解答。原创 2024-03-12 17:51:11 · 1032 阅读 · 0 评论 -
【LLM + 错误信息】Can LLM-Generated Misinformation Be Detected?
大型语言模型(LLM)的出现产生了变革性的影响。然而,像 ChatGPT 这样的大型语言模型有可能被用来生成错误信息,这给网络安全和公众信任带来了严重问题。一个基本的研究问题是:LLM 生成的错误信息会比人工编写的错误信息造成更大的伤害吗?我们建议从检测难度的角度来解决这个问题。我们首先建立了LLM 生成的错误信息分类法。然后,我们对现实世界中利用 LLM 生成错误信息的潜在方法进行了分类和验证。然后,通过广泛的实证调查。原创 2024-03-12 15:46:15 · 723 阅读 · 0 评论 -
【ICLR‘24 】ICLR‘24论文情况及rubattal
智能体能力(40篇)多智能体(11篇)智能体评测(22篇)智能体应用(25篇)论文详情见文首链接。原创 2024-03-11 11:08:12 · 107 阅读 · 0 评论 -
【LLM+三维场景】3D-GPT: Procedural 3D MODELING WITH LARGE LANGUAGE MODELS
在追求高效的自动内容创建过程中,利用可修改参数和基于规则的系统进行程序生成是一种很有前途的方法。然而,由于其复杂性,需要对规则、算法和参数有深入的了解,这可能是一项艰巨的工作。为了减少工作量,我们引入了 3D-GPT 框架,该框架利用大型语言模型(LLM)进行指令驱动的 3D 建模。3D-GPT 将大型语言模型定位为熟练的问题解决者,将程序化三维建模任务分解为可访问的片段,并为每个任务指定合适的agent。任务派遣agent;概念化agent;建模agent。原创 2024-03-10 14:27:03 · 1003 阅读 · 0 评论 -
【LMMs prompt优化】Intent-based Prompt Calibration
提示工程是一项具有挑战性的重要任务,因为大语言模型(LLM)对给定的提示具有高度敏感性,而且文本任务指令本身具有模糊性。自动提示工程对于优化 LLM 的性能至关重要。最近的研究表明, LLMs有能力通过使用元提示)自动进行提示工程,元提示结合了上次试验的结果,并提出了改进的提示。然而,这需要一个高质量的基准来比较不同的提示,而在现实世界的许多使用案例中,很难获得这种基准,而且成本高昂。在这项工作中,我们引入了一种新的自动提示工程方法,使用校准过程根据用户意图迭代改进提示。原创 2024-03-09 22:29:08 · 1118 阅读 · 0 评论 -
【指令微调数据集生成】Learning to Generate Instruction Tuning Datasets for Zero-Shot Task Adaptation
Bonito将未注明的文本转换为特定任务的训练数据集,以便进行指令调整。我们的目标是在用户的专用私人数据上实现大型语言模型的零样本任务调整。我们在一个新的大规模数据集上对 Bonito 进行了训练,该数据集包含 165 万个示例,是通过将现有的指令调整数据集重新混合成元模板而创建的。输入:未注明的文本和任务属性;输出:包括指令和响应。我们使用Bonito为七个数据集生成合成任务(这些数据集来自三个任务类型:是非题QA、提取题QA和自然语言推理)并调整语言模型。原创 2024-03-09 22:10:16 · 1102 阅读 · 0 评论 -
【RAG综述】Retrieval-Augmented Generation for AI-Generated Content: A Survey
人工智能生成内容(AIGC)的发展得益于模型算法的进步、可扩展的基础模型架构以及大量高质量数据集的可用性。虽然 AIGC 已经取得了令人瞩目的成绩,但它仍然面临着各种挑战,例如难以维护最新的长尾知识、数据泄漏的风险以及与训练和推理相关的高昂成本。检索增强生成(RAG)是最近出现的一种应对这些挑战的范例。特别是,RAG 引入了信息检索过程,通过从可用数据存储中检索相关对象来增强 AIGC 结果,从而提高准确性和鲁棒性。在本文中,我们全面回顾了将 RAG 技术集成到 AIGC 场景中的现有工作。原创 2024-03-09 21:42:16 · 1373 阅读 · 0 评论 -
【LLM数据集综述】Datasets for Large Language Models: A Comprehensive Survey
本文开始探索大型语言模型(LLM)数据集,这些数据集在 LLM 的显著进步中发挥着至关重要的作用。这些数据集是基础架构,类似于支撑和培育 LLM 发展的根系统。因此,对这些数据集的研究成为研究中的一个重要课题。预训练语料库;指令微调数据集;偏好数据集;评估数据集;传统自然语言处理 (NLP) 数据集。调查揭示了当前面临的挑战,并指出了未来研究的潜在途径。此外,还对现有的数据集资源进行了全面回顾,包括来自444 个数据集的统计数据,涵盖8 个语言类别和32 个领域。数据集统计包含。原创 2024-03-09 21:27:55 · 1282 阅读 · 0 评论 -
【LLM高效训练】GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection
大型语言模型(LLM)的训练面临着巨大的内存挑战,这主要是由于权重和优化器状态的大小不断增加。常见的内存缩减方法,如低秩适应(Low-rank adaptation,LoRA),是在每一层冻结的预训练权重中添加一个可训练的低秩矩阵,从而减少可训练参数和优化器状态。然而,这些方法在预训练和微调阶段的表现通常不如使用全阶权重进行的训练,因为它们将参数搜索限制在低阶子空间,改变了训练动态,而且可能需要全阶暖启动。在这项工作中,我们提出了梯度低阶投影(GaLore)原创 2024-03-09 21:13:55 · 1039 阅读 · 0 评论 -
【LLM+GUI智能】UFO: A UI-Focused Agent for Windows OS Interaction
我们介绍的 UFO 是一种创新的以用户界面为中心的智能体,它利用 GPT-Vision 的功能,为 Windows 操作系统上的应用程序量身定制,以满足用户的要求。UFO 采用双智能体框架,对图形用户界面(GUI)和 Windows 应用程序的控制信息进行细致的观察和分析。这使智能体能够在单个应用程序内和跨应用程序之间无缝导航和操作,以满足用户的要求,即使在跨多个应用程序的情况下也是如此。该框架包含一个控制交互模块,便于在没有人工干预的情况下进行操作,并实现全自动执行。因此,原创 2024-03-09 20:42:38 · 952 阅读 · 0 评论 -
【医疗LLMs】Apollo: Lightweight Multilingual Medical LLMs towards Democratizing Medical AI to 6B People
尽管庞大的全球医学知识库以英语为主,但当地语言对于提供量身定制的医疗保健服务至关重要,尤其是在医疗资源有限的地区。为了将医学人工智能的进步推广到更广泛的人群中,我们致力于开发六种语言的医学 LLM,涵盖全球61 亿人口。最终,我们创建了 ApolloCorpora 多语种医疗数据集和 XMedBench 基准。在多语言医疗基准测试中,已发布的 Apollo 模型在各种相对较小的规模(即 0.5B、1.8B、2B、6B 和 7B)下,在同等规模的模型中取得了最佳性能。原创 2024-03-09 18:01:09 · 463 阅读 · 0 评论