自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(195)
  • 资源 (1)
  • 收藏
  • 关注

原创 Instruction Tuning with Multimodal Large Language Model to Support Art Appreciation Education

艺术欣赏对于培养学习者的批判性思维和情商至关重要。然而,传统的艺术欣赏教育往往受到阻碍,因为获得艺术资源的机会有限,尤其是弱势学生,以及主流教育对STEM科目的不平衡重视。为了应对这些挑战,最近的技术进步为创新解决方案铺平了道路。本研究探讨了多模态大语言模型(MLLMs)在艺术欣赏教育中的应用,重点是开发LLaVA Docent,一个利用这些进步的模型。我们的方法包括全面的文献综述和与该领域专家的协商,从而开发出一个强大的数据框架。利用这个框架,我们生成了一个虚拟对话数据集,GPT-4利用了这个数据集。

2024-03-20 16:55:18 74

原创 A Survey on Large Language Model Hallucination via a Creativity Perspective

大型语言模型(LLM)中的幻觉总是被视为局限性。然而,它们是否也是创造力的源泉?这项调查探讨了这种可能性,表明幻觉可能通过培养创造力来促进LLM的应用。这项调查首先回顾了幻觉的分类及其对关键应用中LLM可靠性的负面影响。然后,通过历史实例和最近的相关理论,调查探讨了幻觉在LLM中的潜在创造性益处。为了阐明这种联系的价值和评估标准,我们深入研究了创造力的定义和评估方法。在发散和趋同思维阶段的框架下,本调查系统地回顾了关于在LLM中转化和利用幻觉创造的文献。

2024-03-20 15:49:46 166

原创 GLaM: Fine-Tuning Large Language Models for Domain Knowledge Graph Alignment

将大型语言模型(LLM)与从特定领域数据派生的知识图谱相集成,代表着朝着更强大、更真实的推理方向迈出了重要的一步。随着这些模型的能力越来越强,使它们能够对真实世界的知识图谱执行多步骤推理,同时最大限度地减少幻觉,这一点至关重要。虽然大型语言模型擅长对话和文本生成,但它们在互联实体的领域专用图上推理的能力仍然有限。例如,我们能否根据私人数据库中的关系和属性,查询LLM,以确定专业网络中针对特定目标的最佳联系人?答案是否定的——这种能力超出了目前的方法。然而,这一问题凸显了一个必须解决的关键技术差距。

2024-03-20 15:30:25 124

原创 InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning

大型语言模型的数学能力可以代表其抽象推理能力。在本文中,我们介绍并开源了我们的数学推理LLMs InternLM math,它是从InternLM2继续预训练的。我们将思维链推理、奖励建模、形式推理、数据增强和代码解释器统一为统一的seq2seq格式,并监督我们的模型成为一个通用的数学推理器、验证器、证明器和增强器。这些能力可以用于开发下一个数学LLM或自迭代。

2024-03-20 15:05:21 154

原创 Zero-Shot Chain-of-Thought Reasoning Guided by Evolutionary Algorithms in Large Language Models

大型语言模型(LLM)通过应用零样本思维链(CoT)提示,在不同的任务中表现出了显著的性能,并表现出了令人印象深刻的推理能力。然而,由于句子前缀在预训练阶段的演变性质,在所有任务实例中使用相同CoT提示的现有零样本CoT提示方法可能不是最佳的。在本文中,我们介绍了一种新颖的零样本提示方法,该方法利用进化算法动态生成LLM的不同提示。我们的方法包括初始化两个CoT提示,基于LLM执行进化操作以创建不同的集合,并利用LLM为给定问题选择合适的CoT提示。

2024-03-20 11:20:31 114

原创 FUSING ACOUSTIC INFORMATION INTO LARGE LANGUAGE MODELS FOR AUTOMATIC SPEECH RECOGNITION

最近的研究已经成功地表明,在自动语音识别(ASR)输出的基础上,大型语言模型(LLM)可以成功地用于生成误差校正(GER)。具体地,LLM用于执行从ASR系统生成的N个最佳假设列表到预测的输出转录的直接映射。然而,尽管GER有效,但它引入了额外的数据不确定性,因为LLM是在不考虑语音信号中可用的声学信息的情况下训练的。在这项工作中,我们的目标是通过一种称为不确定性感知动态融合(UADF)的新型后期融合解决方案,在生成预测转录之前注入声学信息,从而克服这一限制。

2024-03-20 11:04:34 76

原创 Self-Alignment of Large Language Models via Monopolylogue-based Social Scene Simulation

将大型语言模型(LLM)与人类价值观相结合,对于减轻其滥用带来的潜在不利影响至关重要。从社会学的视角来看,承认各方的关切是塑造人类价值观的关键因素,本文提出了一个新的方向来调整LLM:社会场景模拟。为了实现这一点,我们提出了MATRIX,这是一种新颖的社交场景模拟器,它模拟用户输入查询周围的真实场景,使LLM能够在响应之前考虑社会后果。MATRIX是一个虚拟排练空间,类似于独白,LLM在这里独自扮演与查询和练习相关的各种角色。

2024-03-20 10:57:25 131

原创 Is it Possible to Edit Large Language Models Robustly?

大型语言模型(LLM)在构建模仿人类行为的交流人工智能方面发挥了关键作用,但面临着高效定制的挑战。为了应对这一挑战,最近的研究深入到了模型编辑领域,它操纵语言模型的特定记忆,并改变相关的语言生成。然而,模型编辑的稳健性仍然是一个悬而未决的问题。这项工作旨在了解编辑方法的优势和局限性,从而促进交流人工智能的稳健、现实应用。具体而言,我们进行了广泛的分析,以解决三个关键的研究问题。Q1:在现实情况下,经过编辑的LLM是否能始终如一地表现得像交流人工智能?

2024-03-20 10:50:53 80

原创 Large Language Models: A Survey

自2022年11月ChatGPT发布以来,大型语言模型(LLM)因其在广泛的自然语言任务中的强大性能而备受关注。LLM的通用语言理解和生成能力是通过在大量文本数据上训练数十亿模型的参数来获得的,正如缩放定律所预测的那样。LLM的研究领域虽然很新,但正在以许多不同的方式迅速发展。在本文中,我们回顾了一些最著名的LLM,包括三个流行的LLM家族(GPT、LLaMA、PaLM),并讨论了它们的特点、贡献和局限性。我们还概述了为构建和增强LLM而开发的技术。

2024-03-20 10:46:11 129

原创 Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning

在本文中,我们提出了R3R^3R3:通过反向课程强化学习进行学习推理(RL),这是一种仅使用结果监督来实现大型语言模型过程监督的新方法。将RL应用于复杂推理的核心挑战是确定一系列能产生积极回报的行动,并为优化提供适当的监督。结果监督在不识别错误位置的情况下为最终结果提供稀疏的奖励,而过程监督提供逐步奖励,但需要大量的手动注释。R3R^3R3通过从正确的演示中学习克服了这些限制。具体地说,R3R^3R3将推理的开始状态从演示的结束逐渐滑动到开始,有助于在所有阶段更容易地进行模型探索。

2024-03-20 10:36:42 261

原创 Large Language Model Meets Graph Neural Network in Knowledge Distillation

尽管最近社区披露了大型语言模型(LLM)在理解文本属性图(TAG)方面的进步和潜在应用,但LLM的高计算和存储要求以及模型推理过程中的长延迟阻碍了其在生产中的部署。同时,尽管传统的图神经网络(GNN)轻权重,善于学习图的结构特征,但它们掌握TAG中复杂语义的能力在实际应用中受到一定的限制。为了解决这些局限性,我们专注于TAG中节点分类的下游任务,并提出了一种新的图知识蒸馏框架,称为语言图知识蒸馏(LinguGKD),使用LLM作为教师模型,GNN作为学生模型进行知识蒸馏。

2024-03-20 10:26:15 132

原创 Can Large Language Model Agents Simulate Human Trust Behaviors?

在社会科学等应用中,大型语言模型(LLM)代理越来越多地被用作模拟工具来对人类进行建模。然而,一个基本问题仍然存在:LLM代理真的能模拟人类行为吗?在本文中,我们关注人类互动中最关键的行为之一,信任,并旨在研究LLM代理是否可以模拟人类的信任行为。我们首先发现,在行为经济学中广泛认可的信任博弈框架下,LLM代理通常表现出信任行为,称为代理信任。然后,我们发现LLM代理在信任行为方面可以与人类具有高度的行为一致性,特别是对于GPT-4,这表明用LLM代理模拟人类信任行为的可行性。

2024-03-20 10:18:39 143

原创 DeAL: Decoding-time Alignment for Large Language Models

如今,大型语言模型(LLM)被期望生成与人类偏好相一致的内容。目前的工作集中在模型训练时的对齐,通过诸如人类反馈强化学习(RLHF)等技术。然而,尚不清楚这种方法是否是向模型教授对齐目标的有效选择。首先,无法结合多种自定义奖励以及依赖模型开发人员对通用和静态原则的看法是关键的限制。其次,模型训练中的残余差距和这种方法的可靠性也值得怀疑(例如,即使在安全训练后也容易越狱)。为了解决这些问题,我们提出了DeAL,这是一个允许用户自定义奖励函数并启用LLM(DeAL)的解码时间ALignment的框架。

2024-03-20 10:05:05 284

原创 EntGPT: Linking Generative Large Language Models with Knowledge Bases

由于在训练和推理过程中缺乏事实核查和知识基础,大型语言模型(LLM)生成事实正确输出的能力仍然相对未被探索。在这项工作中,我们的目标是通过实体消歧(ED)任务来应对这一挑战。我们首先考虑提示工程,并设计了一种三步硬提示方法来探测LLM的ED性能,而无需监督微调(SFT)。总体而言,提示方法提高了Micro-𝐹1分,在某些情况下高达36%甚至更高,并且与现有的SFT方法相比,在10个数据集上获得了可比的性能。我们通过具有类似提示和响应的指令调整(IT)进一步提高了知识基础能力。

2024-03-20 09:57:55 104

原创 PaDeLLM-NER: Parallel Decoding in Large Language Models for Named Entity Recognition

在这项研究中,我们旨在减少使用大型语言模型(LLM)进行命名实体识别(NER)的生成延迟。LLM中高延迟的主要原因是顺序解码过程,该过程自回归地生成NER的所有标签和提及,显著增加了序列长度。为此,我们在用于NER的LLM中引入了并行解码(PaDeLLM-NER),这是一种无缝集成到现有生成模型框架中的方法,无需额外的模块或架构修改。PaDeLLM-NER允许同时解码所有提及,从而减少生成延迟。实验表明,对于英语和汉语,PaDeLLM-NER显著提高了推理速度,比自回归方法快1.76到10.22倍。

2024-03-20 09:41:11 126

原创 Stealing Part of a Production Language Model

我们介绍了第一种模型窃取攻击,该攻击从OpenAI的ChatGPT或谷歌的PaLM-2等黑匣子生产语言模型中提取精确、重要的信息。具体来说,我们的攻击恢复了Transformer模型的嵌入投影层(直到对称性),给定了典型的API访问。我们的攻击只需不到20美元,就可以提取OpenAI的ada和babbage语言模型的整个投影矩阵。因此,我们首次确认,这些黑匣子模型的隐藏维度分别为1024和2048。

2024-03-19 18:21:22 183

原创 UNI-SMART: UNIVERSAL SCIENCE MULTIMODAL ANALYSIS AND RESEARCH TRANSFORMER

在科学研究及其应用中,科学文献分析至关重要,因为它使研究人员能够在他人工作的基础上再接再厉。然而,科学知识的快速增长导致学术文章的大量增加,使得深入的文献分析变得越来越具有挑战性和耗时。大型语言模型(LLM)的出现为解决这一挑战提供了一种新的方法。LLM以其强大的文本总结能力而闻名,被视为改进科学文献分析的潜在工具。然而,现有的LLM有其自身的局限性。科学文献通常包括广泛的多模态元素,如分子结构、表格和图表,这些元素对于以文本为中心的LLM来说很难理解和分析。

2024-03-19 18:03:32 198

原创 Unlocking the conversion of Web Screenshots into HTML Code with the WebSight Dataset

在web开发中使用视觉语言模型(VLM)提供了一种很有前途的策略,可以提高效率并解锁无代码解决方案:通过提供UI的屏幕截图或草图,VLM可以生成代码来复制它,例如用HTML等语言。尽管VLM在各种任务中取得了进步,但将屏幕截图转换为相应HTML的具体挑战却很少被探索。我们认为这主要是由于缺乏合适的、高质量的数据集。这项工作介绍了WebSight,这是一个由200万对HTML代码及其相应屏幕截图组成的合成数据集。我们在数据集上对基础VLM进行了微调,并熟练地将网页截图转换为功能HTML代码。

2024-03-19 17:23:02 132

原创 SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models

在快速发展的大型语言模型(LLM)中,确保稳健的安全措施至关重要。为了满足这一关键需求,我们提出了SALAD Bench,这是一个专门用于评估LLM、攻击和防御方法的安全基准。SALAD Bench以其广度而闻名,其规模大、多样性丰富、跨越三个层次的复杂分类法和多功能性超越了传统基准。SALAD Bench精心设计了一系列细致的问题,从标准查询到复杂的问题,包括攻击、防御修改和多项选择。

2024-03-19 17:01:13 175

原创 When Geoscience Meets Generative AI and LLMs:Foundations, Trends, and Future Challenges

生成人工智能(GAI)代表了一个新兴领域,有望以不同的方式创建合成数据和输出。GAI最近在生物学、医学、教育、立法、计算机科学和金融等广泛应用领域取得了令人印象深刻的成果。随着人们努力提高安全性、效率和可持续性,生成性人工智能确实成为一个关键的区别,并有望在该领域实现范式转变。本文探讨了生成人工智能和大型语言模型在地球科学中的潜在应用。机器学习和深度学习领域的最新发展使生成模型能够用于解决与地球科学和地球系统动力学相关的各种预测问题、模拟和多标准决策挑战。

2024-03-19 16:34:30 82

原创 X-LORA: MIXTURE OF LOW-RANK ADAPTER EXPERTS, A FLEXIBLE FRAMEWORK for LLMs

我们报告了一种混合专家策略,使用基于低秩自适应(LoRA)的深层token级方法创建微调的大型语言模型。从一组预训练的LoRA适配器开始,我们提出了一种门控策略,该策略使用隐藏状态来动态混合自适应层,允许生成的X-LoRA模型利用不同的能力,并创建以前从未使用过的自适应深层组合,以解决特定任务。该设计的灵感来自普遍性和多样性的生物学原理,其中神经网络构建块在不同的层次表现中被重复使用。因此,X-LoRA模型可以很容易地用于任何现有的大型语言模型(LLM),而不需要修改底层结构。

2024-03-19 16:16:37 221

原创 Analyzing and Mitigating False Premise Hallucinations in Large Language Models

大型语言模型(LLM)已经显示出令人印象深刻的功能,但仍然存在幻觉问题。这一问题的一个重要类型是假前提幻觉,我们将其定义为LLM在面对假前提问题时产生幻觉文本的现象。在本文中,我们对假前提幻觉进行了全面的分析,并阐明了其内部工作机制:一小部分注意力头(我们称之为假前提头)干扰了知识提取过程,导致了假前提幻觉的发生。基于我们的分析,我们提出了一种新的、有效的减轻假前提幻觉的方法——FAITH(用于制造幻觉的假前提注意头约束)。它约束了模型推理过程中的假前提注意头。

2024-03-19 15:34:52 70

原创 MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

在这项工作中,我们讨论了建立高性能的多模态大型语言模型(MLLMs)。特别是,我们研究了各种体系结构组件和数据选择的重要性。通过对图像编码器、视觉语言连接器和各种预训练数据选择的仔细而全面的消融,我们确定了几个关键的设计教训。例如,我们证明,与其他已发表的预训练结果相比,对于使用图像字幕、交错图像文本和纯文本数据的仔细混合的大规模多模态预训练,在多个基准上实现最先进的(SOTA)小样本结果是至关重要的。

2024-03-19 13:59:27 233

原创 On the Decision-Making Abilities in Role-Playing using Large Language Models

大型语言模型(LLM)现在越来越多地用于角色扮演任务,尤其是在模拟特定领域的专家时,主要是通过角色扮演提示。当在现实世界场景中互动时,角色的决策能力会显著影响其行为模式。在本文中,我们专注于评估LLM角色扮演后的决策能力,从而验证角色扮演的有效性。我们的目标是为提高LLM在角色扮演任务中的决策能力提供指标和指导。具体而言,我们首先使用LLM来生成与Myers Briggs Type Indicator(缩写为MBTI)的16种人格类型相对应的虚拟角色描述,该16种性格类型表示人群的细分。

2024-03-18 18:04:43 86

原创 Towards Tracing Trustworthiness Dynamics: Revisiting Pre-training Period of Large Language Models

确保大型语言模型(LLM)的可信度至关重要。大多数研究都集中在经过充分预训练的LLM上,以更好地理解和提高LLM的可信度。在本文中,为了揭示预训练尚未开发的潜力,我们在此期间率先探索LLM的可信度,重点关注五个关键维度:可靠性、隐私性、毒性、公平性和稳健性。首先,我们将线性探测应用于LLM。高探测精度表明,早期预训练中的LLM已经可以区分每个可信度维度的概念。因此,为了进一步揭示预训练的隐藏可能性,我们从LLM的预训练检查点中提取引导向量,以增强LLM的可信度。

2024-03-18 17:59:53 113

原创 AdaMergeX: Cross-Lingual Transfer with Large Language Models via Adaptive Adapter Merging

作为对特定语言的目标任务进行直接微调的一种有效替代方案,跨语言迁移通过分别对源语言中的目标任务和目标语言中的另一个选定任务进行微调来解耦“任务能力”和“语言能力”,从而解决了训练数据有限的挑战。然而,它们未能将任务能力与源语言或语言能力与所选任务完全分离。在本文中,我们承认任务能力和语言能力之间的相互依赖,并将我们的注意力引向目标语言和源语言在任务上的差距。由于这种差距消除了任务的影响,我们假设它在各个任务中保持一致。

2024-03-18 17:02:01 53

原创 Large Language Models and Games: A Survey and Roadmap

近年来,对大型语言模型(LLM)的研究呈爆炸式增长,随之而来的是公众对该主题的参与。LLM最初是自然语言处理中的一个利基领域,但在包括游戏在内的广泛应用程序和领域中显示出了非凡的潜力。本文调查了LLM在游戏中和游戏中的各种应用的当前技术状态,并确定了LLM可以在游戏中扮演的不同角色。重要的是,我们讨论了LLM在游戏中未来使用的未开发领域和有希望的方向,并调和了LLM的潜力和局限性。作为LLM和游戏交叉点的第一次全面调查和路线图,我们希望本文将成为这一令人兴奋的新领域开创性研究和创新的基础。

2024-03-18 15:15:31 547

原创 Exploring the Impact of Large Language Models on Recommender Systems: An Extensive Review

本文强调了大型语言模型(LLM)在重塑推荐系统方面的重要性,并将其价值归因于传统推荐系统所缺乏的独特推理能力。与缺乏直接用户交互数据的传统系统不同,LLM在推荐项目方面表现出非凡的熟练度,展示了他们理解复杂语言的能力。这标志着推荐领域发生了根本性的范式转变。在动态的研究环境中,研究人员积极利用LLM的语言理解和生成能力来重新定义推荐任务的基础。该调查深入探讨了LLM在建议框架内的内在优势,包括细致入微的上下文理解、跨不同领域的无缝过渡、采用统一的方法、利用共享数据库的整体学习策略、透明的决策和迭代改进。

2024-03-18 15:09:56 304

原创 Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented

检索增强生成(RAG)通过合并来自检索的附加信息来增强大型语言模型(LLM)。然而,研究表明,LLM在有效使用检索到的信息方面仍然面临挑战,甚至忽视或被其误导。关键原因是LLM的训练并没有清楚地使LLM学会如何使用不同质量的输入检索文本。在本文中,我们提出了一个新的视角,将LLM在RAG中的作用视为“信息精炼器”,这意味着无论检索到的文本的正确性、完整性或有用性如何,LLM都可以始终如一地将知识整合到检索到的文本和模型参数中,以生成比检索到的更简洁、准确和完整的文本。

2024-03-18 15:03:40 399

原创 Jailbreaking Large Language Models in Few Queries via Disguise and Reconstruction

近年来,大型语言模型(LLM)在各种任务中都取得了显著的成功,但LLM的可信度仍然是一个悬而未决的问题。一个具体的威胁是可能产生有毒或有害的反应。攻击者可以制作对抗性提示,从而引起LLM的有害响应。在这项工作中,我们通过识别安全微调中的偏见漏洞,开创了LLM安全的理论基础,并设计了一种名为DRA(伪装和重建攻击)的黑匣子越狱方法,该方法通过伪装隐藏有害指令,并在完成时提示模型重建原始有害指令。我们评估了各种开源和开源模型的DRA,展示了最先进的越狱成功率和攻击效率。

2024-03-18 11:28:30 314

原创 Editing Factual Knowledge and Explanatory Ability of Medical Large Language Models

模型编辑旨在精确地修改大型语言模型(LLM)对特定知识的行为,同时保持无关知识不变。它已被证明能有效解决LLM中的幻觉和过期问题。因此,它可以促进LLM在许多关键领域(如医学领域)的应用,在这些领域,幻觉是不可容忍的。在本文中,我们提出了两个模型编辑研究,并在医学领域对其进行了验证:(1)直接编辑事实医学知识和(2)编辑对事实的解释。同时,我们观察到,当前的模型编辑方法与医学知识的专业化和复杂性作斗争。因此,我们提出了MedLaSA,一种用于医学模型编辑的新型分层可扩展适配器策略。

2024-03-18 11:23:00 507

原创 Datasets for Large Language Models: A Comprehensive Survey

本文对大型语言模型(LLM)数据集进行了探索,这些数据集在LLM的显著进步中发挥着至关重要的作用。数据集作为基础基础设施,类似于支撑和培育LLM发展的根系统。因此,对这些数据集的检查成为研究中的一个关键课题。为了解决LLM数据集目前缺乏全面概述和彻底分析的问题,并深入了解其现状和未来趋势,本调查从五个角度对LLM数据集中的基本方面进行了整合和分类:(1)预训练语料库;(2) 指令微调数据集;(3) 偏好数据集;(4) 评估数据集;(5) 传统的自然语言处理(NLP)数据集。

2024-03-17 12:12:28 283 1

原创 TruthX: Alleviating Hallucinations by Editing Large Language Models in Truthful Space

大型语言模型(LLM)已经在各种任务中展示了非凡的能力。然而,他们有时会产生幻觉,尤其是在拥有正确知识的情况下,他们可能会产生不真实的反应。在本文中,我们提出了TruthX,这是一种推理时间方法,通过编辑LLM在真实空间中的内部表示来引出LLM的真实性。TruthX使用自动编码器将LLM的表示分别映射到语义和真实潜在空间,并应用对比学习来识别真实空间内的真实编辑方向。在推理过程中,TruthX通过编辑LLM在真实空间中的内部表示,有效地增强了LLM的真实性。

2024-03-17 11:46:54 310

原创 Can Large Language Models Recall Reference Location Like Humans?

在完成知识密集型任务时,人类有时不仅需要答案,还需要相应的参考短文进行辅助阅读。以前的方法需要通过额外的检索模型来获得预先分割的文章块。本文探讨了利用大型语言模型(LLM)预训练阶段存储的参数化知识,从任何起始位置独立回忆参考段落。我们提出了一个两阶段的框架,模拟人类回忆容易被遗忘的参考文献的场景。最初,LLM会被提示调用文档标题标识符,以获得粗粒度的文档集。然后,基于获取的粗粒度文档集,它调用细粒度的段落。在两阶段调用过程中,我们使用约束解码来确保不会生成存储文档之外的内容。

2024-03-17 11:20:22 49

原创 KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models

大型语言模型(LLM)的自动评估方法受到数据污染的阻碍,导致对其有效性的评估被夸大。现有的策略旨在检测受污染的文本,侧重于量化污染状态,而不是准确衡量模型性能。在本文中,我们介绍了KIEval,这是一个基于知识的交互式评估框架,它首次结合了LLM驱动的“交互者”角色,以实现动态污染弹性评估。从涉及特定领域知识的传统LLM基准中的一个问题开始,KIEval利用动态生成的、多轮的、以知识为中心的对话来确定模型的回答是仅仅是对基准答案的回忆,还是表现出在更复杂的对话中应用知识的深刻理解。

2024-03-17 10:01:35 227

原创 TOMBENCH: Benchmarking Theory of Mind in Large Language Models

心理理论(ToM)是感知和归因于自己和他人的心理状态的认知能力。最近的研究引发了一场关于大型语言模型(LLM)是否表现出某种形式的ToM的争论。然而,现有的ToM评估受到范围受限、主观判断和意外污染等挑战的阻碍,导致评估不足。为了解决这一差距,我们引入了具有三个关键特征的TOMBENCH:一个包含8项任务和31种社会认知能力的系统评估框架,一个支持自动和公正评估的多项选择题格式,以及一个从头开始建立的双语清单,以严格避免数据泄露。

2024-03-17 09:50:41 159

原创 A Data-Centric Approach To Generate Faithful and High Quality Patient Summaries with LLMs

本文是LLM系列文章,针对《A Data-Centric Approach To Generate Faithful and High QualityPatient Summaries with Large Language Models》的翻译。一种以数据为中心的方法,使用大型语言模型生成真实、高质量的患者摘要摘要1 引言2 相关工作3 数据集4 方法5 结果6 讨论7 结论摘要患者往往难以理解自己的住院情况,而医护人员提供解释的资源有限。在这项工作中,我们研究了大型语言模型基于医生笔记生成患者摘

2024-03-16 20:15:41 50

原创 Machine Unlearning of Pre-trained Large Language Models

本研究在大型语言模型(LLM)的背景下探讨了“被遗忘权”的概念。我们探索将机器遗忘作为一种关键解决方案,重点关注预训练的模型——这是一个研究不足的领域。我们的研究为预训练LLM中的机器遗忘描绘了一个全面的框架,包括对七种不同的遗忘方法的批判性分析。通过使用arXiv、books和GitHub中精心策划的数据集进行严格评估,我们建立了一个强大的遗忘性能基准,证明这些方法的计算效率是再训练的105倍以上。我们的结果表明,在分布数据上将梯度上升与梯度下降相结合可以提高超参数的稳健性。

2024-03-16 20:11:39 136

原创 Unlocking the Power of Large Language Models for Entity Alignment

实体对齐(EA)对于集成各种知识图谱(KG)数据至关重要,在数据驱动的人工智能应用中发挥着至关重要的作用。传统的EA方法主要依赖于比较实体嵌入,但其有效性受到有限的输入KG数据和表示学习技术能力的限制。在此背景下,我们介绍了ChatEA,这是一个创新的框架,它结合了大型语言模型(LLM)来改进EA。为了解决有限输入KG数据的限制,ChatEA引入了一个KG代码翻译模块,该模块将KG结构翻译成LLM可以理解的格式,从而允许LLM利用其广泛的背景知识来提高EA的准确性。

2024-03-16 14:07:47 198

原创 Speak Out of Turn: Safety Vulnerability of Large Language Models in Multi-turn Dialogue

大型语言模型(LLM)已被证明会产生非法或不道德的反应,尤其是在遭受“越狱”时。对越狱的研究强调了LLM的安全问题。然而,先前的研究主要集中在单轮对话上,忽略了多轮对话带来的潜在复杂性和风险,多轮对话是人类从LLM中获取信息的关键模式。在本文中,我们认为人类可以利用多轮对话来诱导LLM产生有害信息。LLM可能不打算拒绝警告性或边缘不安全的查询,即使在多轮对话中,每回合都有一个恶意目的。因此,通过将一个不安全的查询分解为多个子查询进行多轮对话,我们诱导LLM逐步回答有害的子问题,最终得到总体有害的响应。

2024-03-16 12:40:44 165

C语言编程实例100题

里面有C语言程序示例,没有100个,但是个个讲的都很好,对于初学者帮助很大。。

2012-03-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除