- 博客(179)
- 资源 (1)
- 收藏
- 关注
原创 Enhancing Multilingual Capabilities of Large Language Models through Self-Distillation from Resource
尽管大型语言模型(LLM)已经在多语言语料库上进行了预训练,但与少数资源丰富的语言相比,它们在大多数语言中的性能仍然落后。缓解这一问题的一种常见方法是将训练数据从资源丰富的语言翻译成其他语言,然后继续训练。然而,使用仅依赖翻译而忽略LLM跨语言的原始能力的数据并不总是有效的,我们表明这将限制跨语言知识转移的性能。在这项工作中,我们提出了SDRRL,这是一种基于资源丰富语言的自蒸馏的方法,通过利用LLM在资源丰富语言上的内部能力,有效地提高了多语言性能。
2024-04-23 17:01:44
137
原创 Direct Large Language Model Alignment Through Self-Rewarding Contrastive Prompt Distillation
在没有人工注释偏好数据的情况下,使大型语言模型与人类期望相一致是一个重要问题。在本文中,我们提出了一种通过使用对比提示对下的响应对的输出概率来评估响应偏好的方法,与RLAIF相比,该方法可以在LLaMA2-7B和LLaMA2-13B上获得更好的性能。基于此,我们提出了一种自动对齐方法,即直接大模型对齐(DLMA)。首先,我们使用对比提示对来自动生成偏好数据。然后,我们继续使用对比提示对来评估生成的偏好数据,并计算自我奖励分数。最后,我们使用DPO算法通过结合这种自我奖励分数来有效地对齐LLM。
2024-04-23 15:47:09
157
原创 Instructing Large Language Model in Multi-Step Reasoning by Exploring Graph Structure of the Text
尽管大型语言模型(LLM)擅长处理简单的推理任务,但由于一系列因素,当面临更复杂的多步骤推理时,它们经常会遇到困难。首先,自然语言通常包含实体之间的复杂关系,这使得在更长的时间内保持清晰的推理链具有挑战性。其次,丰富的语言多样性意味着相同的实体和关系可以使用不同的术语和结构来表达,这使识别和建立多条信息之间的联系的任务变得复杂。图提供了一种有效的解决方案来表示富含关系信息的数据,并捕获实体之间的长期依赖关系。
2024-04-23 14:31:10
107
原创 Learning From Failure Integrating Negative Examples when Fine-tuning Large Language Models as Agents
大型语言模型(LLM)在充当代理方面取得了成功,代理通过搜索引擎等工具与环境交互。然而,LLM是为语言生成而优化的,而不是在训练或调整过程中使用工具,这限制了它们作为代理的有效性。为了解决这个问题,之前的工作首先收集了LLM和环境之间的交互轨迹,只使用成功完成任务的轨迹来微调较小的模型,这使得微调数据稀缺,获取数据既困难又昂贵。丢弃失败的轨迹也会导致数据和资源的显著浪费,并限制微调过程中可能的优化路径。在本文中,我们认为不成功的轨迹提供了有价值的见解,LLM可以通过适当的质量控制和微调策略从这些轨迹中学习。
2024-04-23 11:19:06
132
原创 Head-wise Shareable Attention for Large Language Models
大型语言模型(LLM)具有大量的参数,这限制了它们在边缘设备上的部署。权重共享是一种很有前途的解决方案,它鼓励权重重用,有效地减少内存使用,同时减少性能下降。然而,当前的权重共享技术主要关注像BERT这样的小规模模型,并使用粗粒度的共享规则,例如逐层共享。考虑到LLM的普遍性和共享整个层或块明显削弱了权重共享的灵活性,这就变得有限了。在本文中,我们对大型语言模型的头部可共享注意力提出了一个观点。我们进一步提出了两种高效记忆的方法,它们在注意力头之间共享参数,特别关注LLM。
2024-04-23 11:11:31
95
原创 Investigating Multi-Hop Factual Shortcuts in Knowledge Editing of Large Language Models
最近的工作展示了大型语言模型在回忆知识和推理方面的强大能力。然而,LLM通过多跳事实将这两种能力结合到推理中的可靠性尚未得到广泛探索。本文系统地研究了LLM利用基于多跳知识的初始实体和终端实体之间的直接连接的快捷方式的可能性。我们首先通过知识神经元来探索事实捷径的存在,揭示:(i)事实捷径的强度与预训练语料库中初始和最终实体的共现频率高度相关;(ii)与思维链提示相比,小样本提示在回答多跳问题时利用了更多的捷径。然后,我们从多跳知识编辑的角度分析了事实捷径带来的风险。
2024-04-23 10:51:32
393
原创 Distilling Large Language Models for Text-Attributed Graph Learning
文本属性图(TAG)是连接的文本文档的图。图模型可以有效地学习标签,但它们的训练在很大程度上依赖于人工注释标签,而在许多应用程序中,人工注释标签很少甚至不可用。大型语言模型(LLM)最近在小样本和零样本TAG学习方面表现出了显著的能力,但它们存在可扩展性、成本和隐私问题。因此,在这项工作中,我们专注于通过在TAG学习中提取LLM到局部图模型的能力,将LLM和图模型与其互补的优势协同起来。
2024-04-22 19:12:04
237
原创 EFUF: Efficient Fine-grained Unlearning Framework for Mitigating Hallucinations in Multimodal LLMs
在过去的几年里,多模态大型语言模型(MLLMs)引起了越来越多的关注,但它们仍然可能生成包括相应图像中不存在的对象的描述,这种现象被称为对象幻觉。为了消除幻觉,现有的方法手动注释有幻觉和没有幻觉的配对响应,然后使用各种对齐算法来提高图像和文本之间的对齐能力。然而,它们不仅在微调阶段需要大量的计算资源,而且还需要昂贵的人工注释来构建对齐算法所需的配对数据。为了解决这些问题,我们借用了遗忘的思想,提出了一种高效的细粒度遗忘框架(EFUF),它可以消除幻觉,而不需要配对数据。
2024-04-22 10:25:18
502
原创 LoRA-Flow: Dynamic LoRA Fusion for Large Language Models in Generative Tasks
LoRA采用轻量级模块为每个下游任务或领域定制大型语言模型(LLM),其中不同的学习附加模块代表不同的技能。将现有的LoRA组合起来处理新任务可以增强学习的LoRA的可重用性,特别有利于注释数据有限的任务。大多数先前关于LoRA组合的工作主要依赖于每个涉及的LoRA的任务级权重,使得不同的示例和token共享相同的LoRA权重。然而,在生成任务中,不同的token可能需要不同的管理技能。以语文数学任务为例,理解问题描述可能更多地依赖于语文LoRA,而计算部分可能更多地取决于数学LoRA。
2024-04-22 10:06:49
298
原创 EventRL: Enhancing Event Extraction with Outcome Supervision for Large Language Models
在这项研究中,我们提出了EventRL,这是一种为增强大型语言模型(LLM)的事件提取而开发的强化学习方法。EventRL利用具有特定奖励功能的结果监督来解决LLM中普遍存在的挑战,如指令跟随和幻觉,表现为事件结构的不匹配和未定义事件类型的生成。我们针对各种LLM(包括GPT-4、LLaMa和CodeLLaMa模型)中的FewShot提示(FSP)(基于GPT4)和监督微调(SFT)等现有方法来评估EventRL。
2024-04-22 09:54:23
294
原创 LoRETTA: Low-Rank Economic Tensor-Train Adaptation for Ultra-Low-Parameter Fine-Tuning of LLMs
已经提出了各种参数有效微调(PEFT)技术,以实现计算有效的微调,同时保持模型性能。然而,随着大型语言模型(LLM)的快速部署,现有的PEFT方法仍然受到越来越多的可训练参数的限制。为了应对这一挑战,我们提出了LoRETTA,这是一种超参数高效的框架,通过张量序列分解显著减少了可训练参数。具体来说,我们提出了两种方法,分别命名为LoRETTAadp和LoRETTArep。前者采用tensorized适配器,为LLM的微调提供了一种高性能但轻量级的方法。后者强调通过使用一组小张量因子的权重参数化进行微调。
2024-04-22 09:27:26
254
原创 Federated Fine-tuning of Large Language Models under Heterogeneous Language Tasks and Client
联合学习(FL)最近被应用于大型语言模型(LLM)的参数有效微调。尽管前景广阔,但由于客户端的异构资源和数据分布,它带来了重大挑战。本研究引入了FlexLoRA,这是一种简单而有效的LLM微调聚合方案,通过将资源充足的客户与资源最少的参与者的能力联系起来,缓解了传统FL中的“桶效应”,即限制了他们的潜力。FlexLoRA允许动态调整当地的LoRA等级,促进开发一个充满更广泛、更少特定任务知识的全球模型。
2024-04-21 21:00:49
219
原创 Chain-of-Instructions: Compositional Instruction Tuning on Large Language Models
使用大量不同指令的集合对大型语言模型(LLM)进行微调,提高了模型对不同任务的泛化能力,即使是对看不见的任务也是如此。然而,大多数现有的指令数据集只包括单个指令,并且它们很难遵循由多个子任务组成的复杂指令。在这项工作中,我们提出了一个新的组合指令概念,称为指令链(CoI),其中一条指令的输出像链一样成为下一条的输入。与解决单个指令任务的传统实践不同,我们提出的方法鼓励模型逐步解决每个子任务,直到得到最终答案。CoI调整(即,使用CoI指令进行微调)提高了模型处理由多个子任务组成的指令的能力。
2024-04-21 20:53:10
121
原创 Advancing Retrieval-Augmented Large Language Models via Query Generation Blending
检索增强的大型语言模型(LLM)在提高知识密集型场景的性能方面提供了巨大的好处。然而,这些方法经常面临复杂输入的挑战,并且由于噪声知识检索而遇到困难,特别是阻碍了模型的有效性。为了解决这个问题,我们引入了BlendFilter,这是一种通过将查询生成混合与知识过滤相结合来提升检索增强LLM的新方法。BlendFilter通过其查询生成方法提出了混合过程,该方法将外部和内部知识增加与原始查询相结合,确保全面的信息收集。此外,我们独特的知识过滤模块利用了LLM的内在功能,有效地消除了无关数据。
2024-04-20 21:45:44
186
原创 BGE Landmark Embedding: A Chunking-Free Embedding Method For Retrieval Augmented Long-Context LLM
检索增强是处理长上下文语言建模的一种很有前途的方法。然而,现有的检索方法通常使用分块上下文,这容易导致语义表示质量较差和有用信息检索不完整。在这项工作中,我们提出了一种新的方法来增强长上下文语言建模的检索,称为地标嵌入。我们的方法有三个技术贡献。首先,我们引入了一种无分块的架构,它保持长上下文的连贯性,从而可以为上下文中的细粒度单元生成高质量的嵌入。其次,我们提出了一个位置感知的目标函数,它优先考虑连续信息跨度的最终边界。通过学习区分这样一个特殊的位置,可以为查询全面检索有用的信息。
2024-04-20 21:35:06
249
原创 LaCo: Large Language Model Pruning via Layer Collapse
基于transformer的大型语言模型(LLM)呈现出显著的规模扩展趋势,这给模型训练和推理带来了相当大的成本。然而,现有的方法,如模型量化、知识蒸馏和模型修剪,受到各种问题的约束,包括硬件支持的限制、对广泛训练的需要以及对模型内部结构的更改。在本文中,我们提出了一种简洁的逐层修剪方法,称为层折叠(LaCo),其中后部模型层折叠成前一层,从而能够在保持模型结构的同时快速减小模型大小。综合实验表明,在25-30%的修剪率下,我们的方法保持了80%以上的平均任务性能,显著优于现有的最先进的结构化修剪方法。
2024-04-19 16:22:02
203
原创 Benchmarking Knowledge Boundary for Large Language Model A Different Perspective on Model Evaluation
近年来,大型语言模型的开发取得了长足的进步,在各种任务中都取得了显著的性能。为了评估语言模型的知识能力,先前的研究已经提出了许多基于问答对的基准。我们认为,用固定的问题或有限的转述作为查询来评估语言模型是不可靠和不全面的,因为语言模型对提示很敏感。因此,我们引入了一个新的概念,称为知识边界,在语言模型中包含提示不可知知识和提示敏感知识。知识边界避免了语言模型评估中的提示敏感性,使其更加可靠和稳健。
2024-04-19 16:10:25
162
原创 Towards Safer Large Language Models through Machine Unlearning
大型语言模型(LLM)的快速发展已经证明了其在各个领域的巨大潜力,这归功于其广泛的预训练知识和非凡的可推广性。然而,当遇到有问题的提示时,LLM在生成有害内容方面经常遇到挑战。为了解决这个问题,现有的工作试图实现一种基于梯度上升的方法,以防止LLM产生有害的输出。虽然这些方法可能是有效的,但它们经常影响模型效用对正常提示的响应。为了解决这一差距,我们引入了选择性知识否定学习(SKU),这是一种新的LLM遗忘框架,旨在消除有害知识,同时在正常提示下保持效用。
2024-04-19 15:13:19
126
原创 Enhancing the Emotional Intelligence of LLMs without Compromising the General Intelligence
情绪智能(EI)由情绪感知、情绪认知和情绪表达组成,在改善当前基于大语言模型(LLM)的会话式通用人工智能助手的用户交互体验方面发挥着关键作用。以往的工作主要集中在通过对EI-相关分类或回归任务的朴素微调来提高他们的情绪感知能力。然而,这导致了EI的不完全增强和一般智力的灾难性遗忘。为此,我们首先介绍了EIBENCH,这是一个大规模的文本到文本形成中与EI相关的任务集合,包含任务指令,涵盖了EI的所有三个方面,为LLM的全面EI增强奠定了坚实的基础。
2024-04-19 14:56:43
160
原创 Chain of Logic: Rule-Based Reasoning with Large Language Models
基于规则的推理是法律推理的一种基本类型,它使我们能够通过将规则准确地应用于一组事实来得出结论。我们探索因果语言模型作为基于规则的推理器,特别是关于组成规则——由多个元素组成的规则,这些元素形成了复杂的逻辑表达式。关于组成规则的推理是具有挑战性的,因为它需要多个推理步骤,并注意元素之间的逻辑关系。我们介绍了一种新的提示方法——逻辑链,它通过分解(将元素作为独立的逻辑线程来求解)和重组(将这些子答案重新组合以求解底层逻辑表达式)来引发基于规则的推理。
2024-04-19 14:35:51
157
原创 Large Language Models as Zero-shot Dialogue State Tracker through Function Calling
大型语言模型由于其在一般上下文中的高级理解和生成能力,在会话系统中越来越普遍。然而,它们在面向任务的对话(TOD)中的有效性仍然不太令人满意,该对话不仅需要生成响应,还需要在特定任务和领域内进行有效的对话状态跟踪(DST)。在这项工作中,我们提出了一种新的方法FNCTOD,通过函数调用来解决具有LLM的DST。该方法改进了零样本DST,允许在无需大量数据收集或模型调整的情况下适应不同的领域。
2024-04-19 14:11:51
171
原创 Efficient LLM Personalization for Response Prediction with Collaborative Data Refinement
对与大型语言模型(LLM)的个性化交互的日益增长的需求要求开发能够准确有效地识别用户意见和偏好的方法。检索增强是一种有效的策略,因为它可以容纳大量用户,而无需微调成本。然而,现有的研究主要集中在增强检索阶段,并对优化数据库的表示进行了有限的探索,这是个性化等任务的一个关键方面。在这项工作中,我们从一个新的角度来研究这个问题,重点是如何在LLM定制的背景下更好地表示数据,以实现更高效的检索。
2024-04-19 13:44:32
77
原创 LLAMAFACTORY: Unified Efficient Fine-Tuning of 100+ Language Models
有效的微调对于使大型语言模型(LLM)适应下游任务至关重要。然而,在不同的模型上实现这些方法需要付出不小的努力。我们展示了LLAMAFACTORY,这是一个统一的框架,集成了一套尖端高效的培训方法。它允许用户灵活地自定义100+LLM的微调,而无需通过内置的web UI LLAMABOARD进行编码。我们实证验证了我们的框架在语言建模和文本生成任务上的效率和有效性。它发布在已经收到13000多哦star和1600多个fork。
2024-04-19 11:26:50
159
原创 Taxonomy-based CHECKLIST for Large Language Model Evaluation
由于大型语言模型(LLM)已被用于许多下游任务,内部的陈规定型表示可能会影响输出的公平性。在这项工作中,我们将人类知识引入自然语言干预,并在性别偏见的背景下研究预训练的语言模型的行为。受CHECKLIST行为测试的启发,我们提出了一项清单式任务,旨在通过问答(QA)来调查和量化LMs的不道德行为。我们设计了三个比较研究,从一致性、偏向性、模式偏好和性别偏好转换四个方面来评估LMs。我们研究了一个在SQuAD-v2数据集上训练的基于transformer的QA模型和一个自回归大型语言模型。
2024-04-19 11:15:44
77
原创 Adaptive Retrieval Augmentation for Hallucination Mitigation in Large Language Models
幻觉对大型语言模型(LLM)的实际实现提出了重大挑战。参数知识在生成事实内容时的使用受到LLM有限知识的限制,可能导致内部幻觉。虽然整合外部信息有助于填补知识空白,但也会带来不相关信息的风险,从而增加产生外部幻觉的可能性。LLM中的参数知识与外部信息的仔细而平衡的整合对于缓解幻觉至关重要。在这项研究中,我们提出了Rowen,这是一种新的方法,通过针对幻觉输出量身定制的选择性检索增强过程来增强LLM。该过程由多语言语义感知检测模块控制,该模块评估针对相同查询的不同语言的扰动响应的一致性。
2024-04-19 11:02:34
221
原创 Uncertainty Quantification for In-Context Learning of Large Language Models
上下文学习已经成为大型语言模型(LLM)的一种突破性能力,并通过在提示中提供一些与任务相关的演示,彻底改变了各个领域。然而,LLM反应中值得信赖的问题,如幻觉,也被积极讨论。现有的工作致力于量化LLM反应中的不确定性,但它们往往忽视了LLM的复杂性和上下文学习的独特性。在这项工作中,我们深入研究了与上下文学习相关的LLM的预测不确定性,强调这种不确定性可能源于所提供的演示(任意不确定性)和与模型配置相关的模糊性(认知不确定性)。我们提出了一种新的公式和相应的估计方法来量化这两种类型的不确定性。
2024-04-19 10:42:22
98
原创 Integrating Drift-Diffusion Model with Large Language Models for Machine Translation
大型语言模型(LLM)在包括机器翻译在内的各种下游任务中显示出了巨大的潜力。然而,先前关于基于LLM的机器翻译的工作主要集中在更好地利用训练数据、演示或预定义的通用知识来提高性能,而缺乏像人类翻译那样考虑决策。在本文中,我们将Thinker与漂移扩散模型(Thinker DDM)相结合来解决这个问题。然后,我们重新定义了漂移扩散过程,以模仿人类译者在资源受限的情况下的动态决策。
2024-04-19 10:24:36
107
原创 EFFICIENT LANGUAGE ADAPTIVE PRE-TRAINING: EXTENDING STATE-OF-THE-ART LARGE LANGUAGE MODELS
本研究探讨了微调基础英语大语言模型(LLM)生成波兰语文本的潜力。第一步涉及在3.11GB的高质量数据集上进行语言自适应预训练(LAPT),该数据集由2.76亿个波兰语token组成。LAPT之后是额外的微调,旨在解决九个KLEJ挑战。我们训练的模型Curie-7B-v1不仅在基于解码器的波兰模型中以3.02的最低困惑度生成波兰文本,而且在9个任务中的8个任务上以小于2%的差距与最好的波兰编码器-解码器模型的性能不相上下。Curie-7B-v1使用了大约2-3%的典型数据集大小来学习波兰语。
2024-04-19 09:38:37
69
原创 When LLMs Meet Cunning Questions: A Fallacy Understanding Benchmark for Large Language Models
近年来,大型语言模型(LLM)在语言理解和生成方面取得了显著的进展。在此之后,各种衡量LLM各种能力的基准如雨后春笋般出现。在本文中,我们通过提出一个FaLlacy理解基准(FLUB)来挑战LLM的推理和理解能力,该基准包含人类易于理解但模型难以掌握的狡猾问题。具体而言,FLUB关注的狡猾问题主要包括从真实互联网环境中收集的狡猾、幽默和误导性问题。我们在FLUB基准中设计了三个难度越来越大的任务来评估LLM的谬论理解能力。
2024-04-18 19:33:21
202
原创 Investigating the Impact of Data Contamination of Large Language Models in Text-to-SQL Translation
理解文本描述以生成代码似乎是在零样本场景中实现的指令-遵循大型语言模型(LLM)的能力。然而,这种翻译能力极有可能受到看到目标文本描述和相关代码的影响。这种影响被称为数据污染。在这项研究中,我们研究了数据污染对GPT3.5在文本到SQL代码生成任务中的性能的影响。因此,我们引入了一种新的方法来检测GPT中的数据污染,并使用已知的Spider数据集和我们新的不熟悉的数据集Termite来检查GPT-3.5的文本到SQL的性能。
2024-04-18 19:22:34
67
原创 A Survey of Table Reasoning with Large Language Models
表格推理,旨在根据所提供的表格,根据用户需求生成相应的问题答案,并可选地生成表格的文本描述,有效提高信息获取效率。最近,使用大型语言模型(LLM)已经成为表推理的主流方法,因为它不仅显著降低了注释成本,而且性能也超过了以前的方法。然而,现有的研究仍然缺乏对基于LLM的表推理工作的总结。由于现有的研究不足,在LLM时代,哪些技术可以提高表推理性能,LLM为什么擅长表推理,以及未来如何提高表推理能力,这些问题在很大程度上仍未得到探索。这一差距极大地限制了研究的进展。
2024-04-18 17:23:49
167
原创 Anchor-based Large Language Models
大型语言模型(LLM)主要采用仅解码器的transformer架构,需要保留历史token的密钥/值信息,以提供上下文信息并避免冗余计算。然而,这些LLM的巨大尺寸和参数体积需要大量的GPU内存。这种内存需求随着输入文本的长度而增加,导致迫切需要更有效的信息存储和处理方法。本研究介绍了基于锚的LLM(AnLLM),它利用了一种创新的基于锚的自注意网络(AnSAN)和一种基于锚的推理策略。这种方法使LLM能够将序列信息压缩到锚token中,从而减少密钥/值缓存并提高推理效率。
2024-04-18 15:29:28
83
原创 Enhancing Robotic Manipulation with AI Feedback from Multimodal Large Language Models
最近,人们对利用大型语言模型(LLM)来增强决策过程给予了相当大的关注。然而,将LLM生成的自然语言文本指令与执行所需的矢量化操作对齐是一个重大挑战,通常需要特定于任务的细节。为了避免这种特定任务粒度的需要,受基于偏好的策略学习方法的启发,我们研究了利用多模态LLM仅从图像输入提供自动偏好反馈以指导决策。在这项研究中,我们训练了一种称为CriticGPT的多模态LLM,它能够理解机器人操纵任务中的轨迹视频,并作为评论家提供分析和偏好反馈。
2024-04-18 15:16:37
134
原创 History, Development, and Principles of Large Language Models—An Introductory Survey
语言模型是自然语言处理(NLP)的基石,它利用数学方法来概括语言规律和知识,用于预测和生成。经过几十年的广泛研究,语言建模已经从最初的统计语言模型(SLM)发展到现代的大型语言模型(LLM)。值得注意的是,LLM的快速发展已经达到了处理、理解和生成人类级文本的能力。然而,尽管LLM在改善工作和个人生活方面具有显著优势,但一般的实践者对这些模式的背景和原则的了解有限,阻碍了它们的全部潜力。值得注意的是,大多数LLM审查侧重于特定方面,并使用专门的语言,这对缺乏相关背景知识的从业者构成了挑战。
2024-04-18 14:47:01
113
原创 LEVERAGING LARGE LANGUAGE MODELS FOR ENHANCED NLP TASK PERFORMANCE THROUGH KNOWLEDGE DISTILLATION
GPT-4等新兴的大型语言模型(LLM)彻底改变了自然语言处理(NLP),在命名实体识别(NER)等传统任务中显示出潜力。我们的研究探索了一种三阶段训练策略,该策略利用GPT-4的能力来提高BERT模型在NER上的性能。最初,GPT-4在不进行微调的情况下注释CONLL2003的一个子集和额外的BBC数据集。然后,我们使用原始数据和LLM注释数据的组合来训练BERT,分析LLM注释相对于传统方法的有效性。第二阶段涉及不同训练方案的比较实验,评估蒸馏数据和原始数据之间的协同作用。
2024-04-18 11:20:29
103
原创 Boosting Large Language Models via Graph-centric Instruction Tuning and Preference Alignment
当前的大型语言模型(LLM)是否可以通过参数更新更好地解决图推理和生成任务?在本文中,我们提出了InstructionGraph,这是一个框架,通过指令调整和偏好调整,使LLM能够进行图推理和生成。具体而言,我们首先提出了一种结构化格式描述器,将所有图形数据统一为通用的类代码格式,该格式可以简单地表示图形,而无需任何外部的图形专用编码器。此外,引入了图指令调整阶段来指导LLM解决图推理和生成任务。最后,我们识别了图任务中潜在的幻觉问题,并对负实例进行了偏好对齐采样,其目标是提高模型的输出可靠性。
2024-04-18 10:56:19
230
原创 (Ir)rationality and Cognitive Biases in Large Language Models
大型语言模型(LLM)是否显示出理性推理?LLM已被证明包含人类偏见,这是由于它们所训练的数据;这是否反映在理性推理中还不太清楚。在本文中,我们通过使用认知心理学文献中的任务评估七种语言模型来回答这个问题。我们发现,像人类一样,LLM在这些任务中表现出非理性。然而,这种非理性的表现方式并没有反映出人类所表现出的非理性。当LLM对这些任务给出不正确的答案时,它们往往是不正确的,与人类的偏见不同。除此之外,LLM在反应的显著不一致性中揭示了另一层非理性。
2024-04-18 10:50:10
156
原创 Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models
我们研究如何应用大型语言模型从头开始撰写有基础、有组织的长篇文章,其广度和深度与维基百科页面相当。这个未被充分探索的问题在写作前阶段提出了新的挑战,包括如何研究主题并在写作前准备提纲。我们提出了STORM,一个通过检索和多视角提问综合主题提纲的写作系统。STORM通过以下方式对写作前阶段进行建模:(1)在研究给定主题时发现不同的视角;(2)模拟对话,在对话中,持不同视角的作者向基于可信互联网来源的主题专家提出问题;(3)整理收集的信息以创建提纲。
2024-04-18 10:30:16
234
原创 FanOutQA: Multi-Hop, Multi-Document Question Answering for Large Language Models
日常场景中常见的一种问题是“fan-out”问题,即复杂的多跳、多文档推理问题,需要查找大量实体的信息。然而,在大型语言模型中,很少有资源来评估这种类型的问答能力。为了更全面地评估LLM中的复杂推理,我们提出了FanOutQA,这是一个以英语维基百科为知识库的fan-out问答对和人工注释分解的高质量数据集。我们在数据集中制定了三个基准设置,并对7个LLM进行了基准测试,包括GPT-4、LLaMA 2、Claude-2.1和Mixtral8x7B,发现在长期环境中,当代模型仍有改进文档间依赖性推理的空间。
2024-04-18 10:20:12
163
原创 On the Cross-lingual Consistency of Text Watermark for Large Language Models
文本水印技术旨在标记和识别大型语言模型(LLM)产生的内容,以防止误用。在这项研究中,我们在文本水印中引入了“跨语言一致性”的概念,该概念评估文本水印在被翻译成其他语言后保持其有效性的能力。两种LLM和三种水印方法的初步实验结果表明,当前的文本水印技术在将文本翻译成各种语言时缺乏一致性。基于这一观察结果,我们提出了一种跨语言水印去除攻击(CWRA),通过首先从枢轴语言的LLM获得响应,然后将其翻译成目标语言来绕过水印。
2024-04-18 10:08:52
140
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人