UnknownBody-CSDN博客

原创 Angry Men, Sad Women: Large Language Models Reflect Gendered Stereotypes in Emotion Attribution

大型语言模型反映了社会规范和偏见，尤其是关于性别的规范和偏见。尽管社会偏见和刻板印象在各种NLP应用中得到了广泛研究，但在情绪分析方面存在着令人惊讶的差距。然而，情感和性别在社会话语中是紧密相连的。例如，女性通常被认为更具同理心，而男性的愤怒更容易被社会接受。为了填补这一空白，我们首次对五种最先进的LLM（开源和闭源）中的性别情绪归因进行了全面研究。我们调查情绪是否是性别化的，以及这些变化是否基于社会刻板印象。我们提示模型采用性别化的角色，并将情绪归因于“当我与一个亲爱的人发生严重争吵时”这样的事件。

2024-05-23 18:13:27

原创 Towards Training A Chinese Large Language Model for Anesthesiology

医学大语言模型（LLM）由于其显著的实用性，近年来越来越受欢迎。然而，现有的大多数研究都集中在普通医学上，需要在麻醉学等特定领域对LLM进行深入研究。为了填补这一空白，我们引入了Hypnos，这是一种建立在现有LLM基础上的中国麻醉模型，例如Llama。Hypnos的贡献有三个方面：1）从当前LLM中获得的数据，如使用自我指导，可能包括不准确之处。Hypnos采用交叉过滤策略来提高数据质量。该策略包括使用一个LLM来评估从另一个LLM生成的数据的质量，并过滤掉低质量的数据。

2024-05-23 16:34:42

原创 Role Prompting Guided Domain Adaptation with General Capability Preserve for Large Language Models

对用于专业应用程序的大型语言模型（LLM）的兴趣日益增长，这揭示了一个重大挑战：当针对特定领域进行定制时，LLM往往会经历灾难性的遗忘，损害其一般功能，并导致次优的用户体验。此外，由于域之间的混淆，同时为多个域创建通用模型往往会导致整体性能下降。针对这些问题，我们提出了RolE提示引导多领域适应（REGA）策略。这种新方法通过三个关键组成部分有效地管理多域LLM自适应：1）自蒸馏构建和重放一般域样本，以缓解灾难性遗忘。

2024-05-23 15:54:08 1

原创 In-Memory Learning: A Declarative Learning Framework for Large Language Models

探索代理是否可以在不依赖人类标记数据的情况下与环境保持一致是一个有趣的研究课题。我们从智能生物体中观察到的对齐过程中汲取灵感，提出了一个新的学习框架。在这个过程中，陈述性记忆在总结过去的经验中起着关键作用。智能体熟练地从过去的经验中学到见解，提炼和更新现有的笔记，以提高他们在环境中的表现。整个过程发生在记忆组件中，并通过自然语言实现，因此我们将此框架称为记忆内学习。我们还深入研究了旨在评估自我完善过程的基准测试的关键功能。通过系统的实验，我们展示了我们的框架的有效性，并提供了对这个问题的见解。

2024-05-23 15:02:12

原创 DPPA: Pruning Method for Large Language Model to Model Merging

模型合并是将来自多个领域的微调模型组合在一起，目的是提高模型在各个领域的熟练度。主要关注的是参数冲突的解决。大量现有研究在合并阶段解决了这一问题，最新研究集中在整个修剪阶段解决这一问题。当应用于简单的微调模型时，DARE方法显示出有希望的结果。然而，当用于复杂的微调模型时，这种方法的有效性往往会减弱，这些模型显示出相对于基线模型的显著参数偏差。在本文中，我们介绍了一种称为动态修剪分区放大（DPPA）的双阶段方法，旨在解决合并复杂微调模型的挑战。

2024-05-23 10:45:15

原创 Benchmarking the Text-to-SQL Capability of Large Language Models: A Comprehensive Evaluation

大型语言模型（LLM）已成为推进文本到SQL任务的强大工具，显著优于传统方法。然而，作为一个新兴的研究领域，对于最佳的提示模板和设计框架仍然没有达成共识。此外，现有的基准测试没有充分探讨LLM在文本到SQL过程的各个子任务中的性能，这阻碍了LLM认知能力的评估和基于LLM的解决方案的优化。为了解决上述问题，我们首先构建了一个新的数据集，旨在降低LLM中过拟合的风险。然后，我们制定了五个评估任务，以全面评估在整个文本到SQL过程中各种LLM的不同方法的性能。

2024-05-23 09:55:50

原创 Rethinking Generative Large Language Model Evaluation for Semantic Comprehension

尽管大型语言模型（LLM）具有复杂的功能，但在有效评估中遇到了一个主要障碍。本文首先回顾了流行的评估方法——多选问题回答（MCQA），它允许直接测量准确性。通过对11个基准的24个模型进行全面评估，我们强调了MCQA的几个潜在缺点，例如，MCQA评估与实际场景中生成开放式响应之间的不一致。作为回应，我们引入了RWQ Elo评级系统，以两人竞争的形式吸引了24名LLM，如GPT-4、GPT-3.5、Google Gemini Pro和LLaMA-1/-2，由GPT-4担任评委。

2024-05-23 09:21:19 120

原创 Fine-Tuning Large Language Models with Sequential Instructions

大型语言模型（LLM）很难在单个查询中遵循一系列指令，因为它们可能会忽略或误解其中的一部分。这会削弱它们在复杂问题中的性能，这些问题的解决方案需要多个中间步骤，如多语言（翻译然后回答）和多模态（说明然后回答）任务。我们用LLaMA-2 70B和Mixtral-8×7B这样大的开源LLM实证验证了这一点。针对当前数据中顺序指令的稀缺性，我们提出了顺序指令调优（SIT），这是一种简单而有效的策略，可以自动增加指令调优数据，并使LLM具备执行多个顺序指令的能力。

2024-05-23 09:13:05 53

原创 A Multi-Source Context Augmentation Framework for Generating Patient-Centric Medical Responses

大型语言模型（LLM）在生成类似人类的反应方面表现出了令人印象深刻的能力。然而，它们缺乏特定领域的知识，限制了它们在医疗环境中的适用性，在医疗环境下，上下文和全面的应对措施至关重要。为了应对这一挑战，并能够生成与上下文相关且全面的以患者为中心的反应，我们提出了MedInsight一个新的检索增强框架，该框架利用来自多个来源的相关背景信息增强LLM输入（提示）。MedInsight从患者的医疗记录或会诊记录中提取相关细节。然后，它整合了权威医学教科书中的信息，并根据患者的健康史和状况策划了网络资源。

2024-05-22 19:24:50 1

原创 Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model

我们介绍了Xmodel VLM，一种前沿的多模态视觉语言模型。它是为在消费级GPU服务器上高效部署而设计的。我们的工作直接面对一个关键的行业问题，即解决阻碍大规模多模态系统广泛采用的高昂服务成本。通过严格的训练，我们从头开始开发了一个1B级的语言模型，使用LLaVA范式进行模态对齐。结果，我们称之为Xmodel VLM，是一个轻量级但强大的多模态视觉语言模型。对众多经典的多模态基准测试的广泛测试表明，尽管Xmodel VLM的体积更小、执行更快，但其性能与大型模型相当。

2024-05-22 17:05:02

原创 LoRA Learns Less and Forgets Less

低秩自适应（LoRA）是一种广泛应用于大型语言模型的参数高效微调方法。LoRA通过仅将低秩扰动训练到选定的权重矩阵来节省内存。在这项工作中，我们比较了LoRA和完全微调在编程和数学两个目标领域的性能。我们同时考虑指令微调（≈100K提示响应对）和连续预训练（≈10B非结构化token）数据机制。我们的研究结果表明，在大多数情况下，LoRA的性能明显不如完全微调。尽管如此，LoRA表现出了一种理想的正则化形式：它可以更好地保持基本模型在目标域外任务上的性能。

2024-05-22 16:46:10 2

原创 What matters when building vision-language models?

大型语言模型和视觉transformer的改进推动了人们对视觉语言模型（VLM）日益增长的兴趣。尽管有大量关于这一主题的文献，但我们观察到，关于VLM设计的关键决策往往是不合理的。我们认为，这些未经支持的决策阻碍了该领域的进展，因为它们很难确定哪些选择可以提高模型性能。为了解决这个问题，我们围绕预训练的模型、架构选择、数据和训练方法进行了广泛的实验。我们对研究结果的整合包括Idefics2的开发，这是一种具有80亿个参数的高效基础VLM。

2024-05-22 14:04:56 3

原创 RLHF Workflow: From Reward Modeling to Online RLHF

我们在本技术报告中介绍了从人类反馈中进行在线迭代强化学习（RLHF）的工作流程，在最近的大型语言模型（LLM）文献中，该技术被广泛报道为大大优于离线学习。然而，现有的开源RLHF项目在很大程度上仍然局限于离线学习环境。在本技术报告中，我们旨在填补这一空白，并提供一个易于复制的在线迭代RLHF的详细脚本。特别是，由于在线人类反馈对于资源有限的开源社区来说通常是不可行的，我们首先使用一组不同的开源数据集构建偏好模型，并使用构建的代理偏好模型来近似人类反馈。

2024-05-22 11:32:22 3

原创 Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory

增大Transformer模型的大小并不总是能够提高性能。这种现象不能用经验缩放定律来解释。此外，当模型记忆训练样本时，泛化能力得到提高。我们提出了一个理论框架，揭示了基于Transformer的语言模型的记忆过程和性能动态。我们使用Hopfield网络对具有关联存储器的Transformer的行为进行建模，使得每个Transformer块有效地进行近似最近邻居搜索。基于此，我们设计了一个类似于现代连续Hopfield网络中的能量函数，它为注意力机制提供了深刻的解释。

2024-05-22 10:57:01 2

原创 Towards Personalized Evaluation of Large Language Models with An Anonymous Crowd-Sourcing Platform

大型语言模型评价在提高其能力方面起着至关重要的作用。以前，在这个领域已经提出了许多评估大型语言模型的方法。尽管这些现有的工作很有效，但它们主要侧重于评估客观问题，而忽略了评估主观问题的能力，这在大型语言模型中非常常见。此外，这些方法主要利用集中的数据集进行评估，问题库集中在评估平台本身。此外，这些平台采用的评估过程往往忽视了个性化因素，忽视了评估者和被评估模型的个人特征。

2024-05-22 10:42:24 65

原创 Automated Generation and Selection of State-Aware Guidelines for Large Language Model Agents

大型语言模型（LLM）的主要局限性是它们对世界的理解受到限制。这给基于LLM的代理带来了重大困难，尤其是在预训练的LLM缺乏足够知识的领域。在本文中，我们介绍了一种称为AutoGuide的新框架，该框架通过利用离线体验中的隐性知识来弥合预训练的LLM中的知识差距。具体而言，AutoGuide通过提取一组状态感知指南，有效地提取嵌入离线数据中的知识。重要的是，每一条状态感知指南都用简洁的自然语言表达，并遵循条件结构，清楚地描述了适用的状态。

2024-05-22 10:38:17 3

原创 OverleafCopilot: Empowering Academic Writing in Overleaf with Large Language Models

大型语言模型（LLM）的快速发展促进了来自不同领域的各种应用。在本技术报告中，我们探讨了LLM与流行的学术写作工具Overleaf的集成，以提高学术写作的效率和质量。为了实现上述目标，存在三个挑战：i）包括Overleaf和LLM之间的无缝交互，ii）与LLM提供商建立可靠的通信，以及iii）确保用户隐私。为了应对这些挑战，我们推出了OverleafCopilot，这是第一个无缝集成LLM和Overleaf的工具（即浏览器扩展），使研究人员能够在撰写论文时利用LLM的力量。

2024-05-22 09:38:14 85

原创 NPHardEval4V: A Dynamic Reasoning Benchmark of Multimodal Large Language Models

理解多模态大型语言模型（MLLMs）的推理能力是一个重要的研究领域。在这项研究中，我们引入了一个动态基准NPHardEval4V，旨在解决在评估MLLM的纯推理能力方面存在的差距。我们的基准测试旨在提供一个场所，将图像识别和指令遵循等各种因素的影响与模型的整体性能区分开来，使我们能够专注于评估它们的推理能力。它是通过将问题的文本描述从NPHardEval转换为图像表示来构建的。我们的研究结果揭示了不同模型之间推理能力的显著差异，并突出了MLLM在推理方面与LLM相比相对较弱的性能。

2024-05-21 17:42:16 2

原创 Multi-perspective Improvement of Knowledge Graph Completion with Large Language Models

知识图谱补全（KGC）是一种广泛使用的方法，通过对缺失链接进行预测来解决知识图谱中的不完整问题。基于描述的KGC利用预训练的语言模型来学习具有名称或描述的实体和关系表示，这显示出有希望的结果。然而，基于描述的KGC的性能仍然受到文本质量和不完整结构的限制，因为它缺乏足够的实体描述，并且仅依赖于关系名称，导致次优结果。

2024-05-21 17:13:54 8

原创 PHAnToM: Personality Has An Effect on Theory-of-Mind Reasoning in Large Language Models

大型语言模型（LLM）的最新进展表明，在自然语言处理的许多任务中，它们的能力与人类相当，甚至优于人类。尽管取得了这一进展，LLM在人类天生擅长的社会认知推理方面仍然不足。本研究从对某些人格特征与心理理论推理之间联系的心理学研究以及对提示对LLM能力的超敏感性的提示工程研究中汲取灵感，调查了在LLM中使用提示诱导个性如何影响其心理理论推理能力。我们的研究结果表明，在三种不同的ToM任务中，某些诱导性格会显著影响LLM的推理能力。

2024-05-21 15:25:03 3

原创 Derivative-Free Optimization for Low-Rank Adaptation in Large Language Models

诸如LoRA之类的参数有效调整方法可以通过调整一小部分参数来实现与模型调整相当的性能。然而，仍然需要大量的计算资源，因为这个过程涉及计算梯度和在整个模型中执行反向传播。最近，人们致力于利用无导数优化方法来避免梯度的计算，并在小样本设置中展示增强的鲁棒性。在本文中，我们将低阶模块预先设置到模型的每个自注意层中，并使用两种无导数优化方法在每一层交替优化这些低阶模块。

2024-05-21 14:55:22 2

原创 Causal Prompting: Debiasing Large Language Model Prompting based on Front-Door Adjustment

尽管现有的提示方法（如上下文学习和大型语言模型的思维链）取得了重大成就，但它们仍然面临着各种偏见的挑战。传统的去偏方法主要集中在模型训练阶段，包括基于数据增强和基于重加权的方法，其局限性在于解决LLM的复杂偏差。为了解决这些局限性，使用结构因果模型揭示了提示方法背后的因果关系，并提出了一种基于前门调整的新型因果提示方法，以有效减轻LLM的偏差。具体而言，因果干预是通过设计提示来实现的，而无需访问LLM的参数和logits。

2024-05-21 11:38:06 9

原创 Towards a Psychology of Machines: Large Language Models Predict Human Memory

尽管缺乏人类认知的基础，但大型语言模型（LLM）在各种任务中都表现出了非凡的能力。这就提出了一个问题：除了简单地模仿人类语言模式之外，这些模型还能深入了解人类认知的机制吗？这项研究探讨了ChatGPT在基于语言的记忆任务中预测人类表现的能力。在文本理解理论的基础上，我们假设通过在歧义句之前加上与上下文相关的信息，可以帮助识别歧义句（例如，“因为比尔喝酒从来没有放在家里”）。参与者，包括人类和ChatGPT，被呈现成对的句子。

2024-05-21 11:24:05 1

原创 Infusing Knowledge into Large Language Models with Contextual Prompts

知识注入是一种很有前途的方法，可以增强特定领域NLP任务的大型语言模型，而不是从头开始对大型数据进行预训练模型。这些增强的LLM通常依赖于来自现有知识图谱的额外预训练或知识提示，这在许多应用中是不切实际的。相比之下，直接从相关文档中注入知识更具普遍性，减轻了对结构化知识图的需求，同时对通常在任何知识图谱中都找不到的实体也很有用。基于这一动机，我们提出了一种简单而通用的知识注入方法，通过在输入文本中的上下文中生成提示。我们的实验表明了我们的方法的有效性，我们通过探索微调LLM来评估该方法。

2024-05-21 10:54:09 72

原创 Harnessing Multi-Role Capabilities of Large Language Models for Open-Domain Question Answering

开放域问答（ODQA）已成为信息系统研究的一个重要热点。现有的证据收集方法主要有两种范式：（1）先检索后阅读范式从外部语料库中检索相关文档；以及（2）先生成后读取范式使用大型语言模型（LLM）来生成相关文档。然而，两者都不能完全满足对证据的多方面要求。为此，我们提出了LLMQA，这是一个通用的框架，将ODQA过程公式化为三个基本步骤：查询扩展、文档选择和答案生成，结合了基于检索和基于生成的证据的优势。

2024-05-21 10:28:58 301

原创 Peacock: A Family of Arabic Multimodal Large Language Models and Benchmarks

多模态大语言模型（MLLMs）已被证明在需要复杂推理和语言理解的广泛任务中是有效的。然而，由于缺乏英语以外语言的高质量多模态资源，MLLM的成功仍然相对局限于以英语为基础的环境。这对开发其他语言的可比模型提出了重大挑战，甚至包括阿拉伯语等母语人口众多的语言。为了缓解这一挑战，我们引入了一个全面的阿拉伯语MLLMs家族，名为Peacock，具有强大的视觉和语言能力。通过全面的定性和定量分析，我们展示了我们的模型在各种视觉推理任务上的扎实表现，并进一步展示了它们新兴的方言潜力。

2024-05-20 19:11:18 4

原创 Revisiting Dynamic Evaluation: Online Adaptation for Large Language Models

我们考虑在测试时在线微调语言模型的参数的问题，也称为动态评估。虽然众所周知，这种方法提高了整体预测性能，特别是在考虑训练和评估数据之间的分布变化时，我们在这里强调的观点是，在线适应将参数转化为随时间变化的状态，并提供了一种上下文长度扩展形式，以权重表示记忆，更符合神经科学中记忆的概念。我们特别关注适应的速度（就样本效率而言）、对总体分布漂移的敏感性，以及执行梯度计算和参数更新的计算开销。我们的实证研究提供了在线适应何时特别有趣的见解。

2024-05-20 17:47:25 2

原创 Large Language Models for Verifiable Commonsense Knowledge Graph Question Answering

知识图谱问答（KGQA）方法寻求使用存储在知识图谱（KGs）中的关系信息来回答自然语言问题。随着大型语言模型（LLM）的最新进展及其卓越的推理能力，利用它们进行KGQA的趋势越来越大。然而，现有的方法只专注于回答事实问题，例如“西尔维奥·贝卢斯科尼的第一任妻子出生在哪个城市。在这项工作中，我们首先观察到，现有的基于LLM的KGQA方法在这些问题上与幻觉作斗争，特别是在针对长尾实体（例如，非主流和最近的实体）的查询上，从而阻碍了它们在现实世界应用中的适用性，特别是因为它们的推理过程不容易验证。

2024-05-20 16:37:54 5

原创 Leveraging Biomolecule and Natural Language through Multi-Modal Learning: A Survey

生物分子建模与自然语言（BL）的集成已成为人工智能、化学和生物学交叉的一个很有前途的跨学科领域。这种方法利用文本数据源中包含的对生物分子的丰富、多方面描述来增强我们的基本理解，并实现下游计算任务，如生物分子性质预测。通过自然语言表达的细致入微的叙述与通过各种分子建模技术描述的生物分子的结构和功能细节的融合，为全面表征和分析生物分子开辟了新的途径。通过将围绕生物分子的上下文语言数据纳入其建模中，BL旨在捕捉一种整体观点，包括通过语言传达的符号品质和数量结构特征。

2024-05-20 15:57:00 3

原创 Mitigating Catastrophic Forgetting in Large Language Models with Self-Synthesized Rehearsal

大型语言模型（LLM）在持续学习过程中会遭受灾难性的遗忘。传统的基于复述的方法依赖于先前的训练数据来保留模型的能力，这在现实世界的应用中可能不可行。当基于公开发布的LLM检查点进行持续学习时，原始训练数据的可用性可能不存在。为了应对这一挑战，我们提出了一个称为自合成复述（SSR）的框架，该框架使用LLM生成用于复述的合成实例。具体来说，我们首先使用用于上下文学习的基本LLM来生成合成实例。随后，我们利用最新的LLM基于合成输入来细化实例输出，保留其获得的能力。

2024-05-20 15:34:24 112

原创 IntactKV: Improving Large Language Model Quantization by Keeping Pivot Tokens Intact

大型语言模型（LLM）擅长于自然语言处理，但需要密集的计算。为了缓解这种情况，已经探索了各种量化方法，但它们会影响LLM的性能。本文揭示了LLM中一种以前被忽视的异常值类型。发现这种异常值将大部分注意力分数分配在输入的初始标记上，称为枢轴标记，这对量化LLM的性能至关重要。鉴于此，我们建议IntactKV从全精度模型中无损地生成枢轴token的KV缓存。该方法简单且易于与现有的量化解决方案相结合。此外，INTACTKV可以被校准为额外的LLM参数，以进一步提升量化的LLM。

2024-05-20 14:32:01 2

原创 DenseMamba: State Space Models with Dense Hidden Connection for Efficient Large Language Models

由于常用的Transformer架构对计算和内存的要求过高，大型语言模型（LLM）面临着严峻的挑战。虽然状态空间模型（SSM）是一种新型的基础网络架构，具有较低的计算复杂度，但其性能尚未完全与Transformers相媲美。本文介绍了DenseSM，这是一种增强SSM中各层之间隐藏信息流的新方法。通过选择性地将较浅层的隐藏状态集成到较深层，DenseSM保留了对最终输出至关重要的细粒度信息。密集连接增强的DenseSM仍然保持了训练的并行性和推理效率。

2024-05-20 11:00:10 58

原创 CLLMs: Consistency Large Language Models

Jacobi解码等并行解码方法有望实现更高效的LLM推理，因为它打破了LLM解码过程的顺序性，并将其转换为可并行计算。然而，在实践中，与传统的自回归（AR）解码相比，它几乎没有实现加速，这主要是因为Jacobi解码很少在单个定点迭代步骤中准确预测多个token。为了解决这个问题，我们开发了一种新的方法，旨在实现从任何状态到雅可比轨迹上的不动点的快速收敛。这是通过细化目标LLM以在给定任何状态作为输入的情况下一致地预测不动点来实现的。

2024-05-20 10:52:37 5

原创 Exploring the Limitations of Large Language Models in Compositional Relation Reasoning

我们通过一个包含1500个英语测试案例的基准，对大型语言模型（LLM）推理作文关系的能力进行了全面评估，该基准旨在涵盖六种不同类型的作文关系：位置关系、比较关系、个人关系、数学关系、同一性关系和其他关系。认识到多语言能力的重要性，我们扩大了评估范围，将这些案例翻译成中文、日语、法语和韩语。我们的多语言作文关系（MCR）基准旨在研究LLM在处理不同语言背景下的作文关系推理时的稳健性和适应性。我们的基准MCR将在发布。

2024-05-20 10:31:21 233

原创 MuseGraph: Graph-oriented Instruction Tuning of Large Language Models for Generic Graph Mining

在各种现实世界应用中，具有丰富属性的图对于建模互连实体和改进预测至关重要。传统的图神经网络（GNN）通常用于对属性图进行建模，当应用于不同的图任务和数据集时，每次都需要重新训练。尽管大型语言模型（LLM）的出现为自然语言处理引入了一种新的范式，但LLM在图挖掘中的生成潜力在很大程度上仍未得到充分挖掘。为此，我们提出了一个新的框架MuseGraph，它无缝集成了GNN和LLM的优势，并促进了跨不同任务和数据集的更有效和通用的图挖掘方法。

2024-05-20 10:23:54 2

原创 Where does In-context Translation Happen in Large Language Models?

自监督的大型语言模型已经证明了通过上下文学习执行机器翻译（MT）的能力，但对于模型在哪里执行提示指令和演示示例的任务知之甚少。在这项工作中，我们试图描述大型语言模型从上下文学习者过渡到翻译模型的区域。通过在GPTNEO2.7B、BLOOM3B、LLAMA7B和LLAMA7B-CHAT上进行的一系列分层上下文掩蔽实验，我们证明了“任务识别”点的证据，即翻译任务被编码到输入表示中，不再需要关注上下文。我们进一步观察到屏蔽整个层时的低性能与任务识别层之间的对应关系。

2024-05-20 10:13:43 86

原创 Octopus v2: On-device language model for super agent

语言模型在各种软件应用程序中显示出了有效性，特别是在与自动工作流相关的任务中。这些模型具有调用函数的关键能力，这对创建人工智能代理至关重要。尽管大规模语言模型在云环境中具有很高的性能，但它们往往与隐私和成本问题有关。当前用于函数调用的设备上模型面临延迟和准确性问题。我们的研究提出了一种新方法，使具有20亿个参数的设备上模型在准确性和延迟方面都超过GPT-4，并将上下文长度减少95%。与具有基于RAG的函数调用机制的Llama-7B相比，我们的方法将延迟提高了35倍。

2024-05-20 09:50:58 2

原创 STAR: Constraint LoRA with Dynamic Active Learning for Data-Efficient Fine-Tuning of Large Language

尽管大型语言模型（LLM）已经通过提示方法展示了小样本学习的强大能力，但监督训练对于复杂的推理任务仍然是必要的。由于其广泛的参数和内存消耗，已经提出了用于LLM的参数有效微调（PEFT）方法和内存有效微调方法。然而，作为数据高效微调的目标，大量注释数据消耗的问题仍未得到探索。一个明显的方法是将PEFT方法与主动学习相结合。然而，实验结果表明，这种组合并非微不足道，并且产生较差的结果。通过探针实验，这种观测可能由两个主要原因解释：不确定性差距和模型校准差。

2024-05-19 21:04:54 52

原创 API Is Enough: Conformal Prediction for Large Language Models Without Logit-Access

这项研究旨在解决在没有logit访问的情况下量化大型语言模型（LLM）中的不确定性这一普遍挑战。共形预测（CP）以其模型不可知和无分布的特性而闻名，是各种LLM和数据分布所需的方法。然而，LLM的现有CP方法通常假定可以访问logits，而这对于某些仅限API的LLM是不可用的。此外，已知logits校准错误，可能导致CP性能下降。为了应对这些挑战，我们引入了一种新的CP方法，该方法（1）适用于没有logitaccess的单API LLM；（2）最小化预测集的大小；

2024-05-19 17:05:28 4

原创 Online Training of Large Language Models: Learn while Chatting

大型语言模型（LLM）极大地改变了自然语言处理（NLP）领域，提供了显著的功能，并获得了广泛的使用。然而，LLM和用户之间现有的交互模式受到灵活性、定制限制或缺乏持续学习的限制。这种灵活性尤其明显，因为用户，尤其是那些没有编程技能的用户，增强或个性化模型的途径受到限制。现有框架由于计算效率低和缺乏用户友好的界面，使模型训练和部署过程进一步复杂化。

2024-05-17 16:53:02 2

C语言编程实例100题

空空如也