- 博客(79)
- 收藏
- 关注
原创 MTL-TRANSFER
本文提出了一种基于多任务学习策略的语义特征提取方法 MTL-TRANSFER,并在广泛使用的基准测试 Defects4J 进行的大量实验表明,MTL-TRANSFER 在 FL 和 APR 任务中的性能优于所有基准测试,证明了该方法的有效性。
2024-11-03 20:54:00 903
原创 SLACC Simion-based Language Agnostic Code Clones
跨语言克隆检测技术可以使研究人员和开发人员创建健壮的语言迁移工具,在精通一门编程语言的时候快速学习更多的编程语言。跨语言克隆检测面临着没有共同底层表示的挑战。为了解决这个问题,可以采用两种方法:静态分析框架(通过匹配不同语言的代码结构和特性)或动态分析框架(通过比较代码的运行时行为)。本文提出一种跨语言克隆检测的动态分析方法——SLACC,使用输入/输出匹配克隆,通过增加输入的数量及涵盖更多的数据类型来克服之前的工作的局限性,检测到更多的的相似代码片段,生成更好的代码集群(clusters)。
2024-10-20 19:43:18 928 1
原创 Informer: Beyond Efficient Transformer for Long SequenceTime-Series Forecasting
许多实际应用需要预测长序列时间序列,例如用电量规划。长序列时间序列预测 (LSTF) 要求模型具有很高的预测能力,即能够有效地捕获输出和输入之间的精确长程依赖耦合。最近的研究表明,Transformer 有可能提高预测能力。但是,Transformer 存在几个严重问题,使其无法直接应用于 LSTF,包括二次时间复杂度、高内存使用率和编码器-解码器架构的固有限制。
2024-10-13 19:26:06 1112
原创 Gated Transformer Networks for Multivariate Time Series Classification
用于时间序列分类的深度学习模型(主要是卷积网络和 LSTM)已被社区广泛研究,并在医疗保健、金融、工业工程和物联网等不同领域得到广泛应用。与此同时,Transformer Networks 最近在各种自然语言处理和计算机视觉任务上取得了前沿性能。在这项工作中,我们探索了当前带有门控的Transformer Networks的简单扩展,称为门控Transformer网络(GTN),用于解决多元时间序列分类问题。
2024-10-08 18:23:44 1132
原创 PST: Measuring Skill Proficiency in Programming Exercise Process via Programming Skill Tracing
编程已经成为当今个人的一项重要技能。对于提高个人编程技能的需求,跟踪编程技能熟练程度变得越来越重要。然而,很少有研究者关注评估学习者的编程技能。现有的关于学习者能力画像的研究大多只利用练习结果,而忽略了编程练习过程中包含的丰富行为信息。因此,本文提出了一个模型来衡量编程练习过程中的技能熟练程度,称为编程技能跟踪(PST)。具体而言,本文作者设计了代码信息图(Code Information Graph,CIG)来表示学习者解决方案代码(solution code)
2024-09-25 16:06:25 642
原创 STaR: Bootstrapping Reasoning With Reasoning
生成逐步的“思维链”逻辑依据(rationale)可以提高语言模型在数学或常识问答等复杂推理任务上的性能。然而,诱导语言模型进行逻辑依据生成需要构建大量逻辑依据数据集,或者仅使用few-shot推理来牺牲准确性。本文提出了一种技术来迭代地利用少量的逻辑依据示例和没有逻辑依据的大型数据集,以引导连续执行更复杂的推理的能力。这种技术称为“自学推理机”(STaR):生成回答许多问题的逻辑依据,并用一些逻辑依据示例进行提示;如果生成的答案是错误的,在给出正确答案的情况下再次尝试生成理由,并利用上述数据进行微调。
2024-09-22 10:57:47 925
翻译 Transformers in Time Series: A Survey
Transformer 在自然语言处理和计算机视觉的许多任务中都取得了卓越的性能,这也引发了时间序列社区的极大兴趣。在 Transformer 的众多优势中,捕获长程依赖关系(long-range dependencies)和相互作用(interactions)的能力对时间序列建模特别有吸引力,从而在各种时间序列应用中取得了令人振奋的进展。本文系统地回顾了用于时间序列建模的 Transformer 方案,强调了它们的优点和局限性。并从两个角度研究了时间序列Transformer的发展。
2024-09-05 20:20:06 79
原创 Isolating Compiler Bugs by Generating Effective Witness Programs With Large Language Models
编译器错误对安全关键型应用程序构成了重大威胁,及时有效地隔离这些错误对于保证编译器的质量至关重要。借鉴 ChatGPT 等预训练大型语言模型( LLMs )在代码生成方面的最新进展,提出了一种新的基于 LLMs 的编译器错误隔离测试程序生成方法——LLM4CBILLM4CBILLM4CBI。由于生成精确提示和选择专业提示两者的挑战,所以直接将 LLMs 用于测试程序变异可能不会产生期望的结果,针对这个问题LLM4CBILLM4CBILLM4CBI。
2024-08-26 20:18:53 1012
原创 TransRepair
自动修复编译错误能指导新手编写和调试代码,提高软件开发的生产力,目前基于学习的程序修复受到广泛关注;本文提出一种端到端的方法——TransRepair,设计了一个基于Transform的神经网络。与其他方法相比,该方法考虑到错误代码和编译诊断反馈的上下文;本文从两个真实程序数据集和互联网中总结了 5 种类型和 74 种细粒度的编译错误子类型,并开发了一种程序损坏技术(program corruption technique)来综合大型数据集。
2024-08-19 20:40:18 719
原创 Large Models for Time Series and Spatio-Temporal Data: A Survey and Outlook
时态数据,包括时间序列和时空数据,在现实世界的应用中极为广泛。这些数据类型记录了动态系统随时间变化的测量值,通常由物理和虚拟传感器产生。对这些数据进行深入分析至关重要,因为它们蕴含着丰富的信息,能够为多种下游任务提供支持。近年来,大语言模型和其他基础模型的快速发展,极大地推动了这些模型在时间序列和时空数据挖掘中的应用。这些方法不仅提升了跨领域模式识别和推理的能力,也为构建能够理解和处理时间数据的通用人工智能奠定了基础。数据类型、模型类别、模型应用范围和应用领域/任务。
2024-07-30 16:04:10 517
原创 VideoAgent: Long-form Video Understanding with Large Language Model as Agent
长形式视频理解是计算机视觉中的一个重要挑战,需要一个能够在长多模态序列上进行推理的模型。受人类对长形式视频理解的认知过程的启发,本文强调交互推理和规划,而不是处理冗长的视觉输入的能力。本文提出了一个新颖的基于Agent的系统VideoAgent,它使用一个大型语言模型作为中心Agent,迭代地识别和编译关键信息来回答一个问题,视觉语言基础模型作为翻译和检索视觉信息的工具。
2024-07-19 20:34:38 770
原创 Tracing Knowledge Instead of Patterns: Stable Knowledge Tracing with Diagnostic Transformer
知识追踪(Knowledge Tracing,KT)旨在追踪学习者学习过程中知识状态的演变。目前,在线学习系统愈发关注对用户的学习过程进行建模,进而为用户提供个性化的学习指导。然而,基于深度神经网络的KT的最新研究大多集中在提高预测学生下一步表现的准确性上。本文作者认为,这些KT模型以及训练范式可以跟踪学习者的学习活动模式(pattern),而不是他们不断发展的知识状态。提出了一个新的架构——Diagnostic Transformer (DTransformer)。
2024-07-15 09:38:22 697
原创 Aligning LLMs for FL-free Program Repair
大型语言模型( large language models,LLMs )在自动程序修复( automatic program repair,APR )方面取得了不错的效果。然而,Decoder-only的LLMs (如 GPT-4 )的next token prediction训练目标与当前填充式方法(infilling-style)的掩码连续词预测(masked span prediction)目标不一致,这阻碍了LLMs充分利用预训练知识进行程序修复。
2024-07-01 00:14:37 716
原创 TransformCode: A Contrastive Learning Framework for Code Embedding via Subtree Transformation
基于现有的利用迁移学习的预训练模型(PTM),本文提出了TransformCode框架,这是一种以对比学习方式学习代码嵌入的新框架。该框架是与编码器和语言无关的,同时还提出了一种新的数据扩充技术——抽象语法树(AST)转换,该技术将语法和语义转换应用于原始代码片段,以生成更多样、更稳健的样本用于对比学习。在本文中,证明了它在几个与代码相关的任务上相对于最先进的方法(如SourcererCC、Code2vec和InferCode)的有效性和优越性。
2024-06-25 17:47:41 953
原创 MACER
自动编译错误修复,即对无法编译的错误程序提出修复建议的问题,近年来引起了人们的极大兴趣,其中自动代码修复对于那些认为编译器错误消息晦涩难懂的新手程序员来说具有重要的教学应用价值;现有方法在很大程度上使用重型生成学习技术的黑盒应用来解决这个问题,例如序列到序列预测(TRACER)或强化学习(RLAssist),这类方法训练时间方面变得庞大,并且在针对特定错误类型时效率低下;作者提出 MACER,该技术基于将修复过程模块化分离为修复识别和修复应用。
2024-06-17 17:50:40 813
原创 KAN: Kolmogorov–Arnold Networks
受Kolmogorov–Arnold表示定理的启发,本文提出了Kolmogorov–Arnold Networks ( KAN ),作为多层感知机( MLP )的一种可行的替代方案。MLP在每一个节点(神经元)上具有固定的激活函数,KAN在边(权重)上具有可学习的激活函数。KAN中完全没有线性权重——每个权重参数都被替换为一个单变量样条函数(spline function)。本文表明,这种看似简单的变化使得KAN在准确性和可解释性方面优于MLP。
2024-05-20 17:41:30 1166
原创 Reinforcement Learning
通过有监督微调,大语言模型已经初步具备了服从人类指令,并完成各类型任务的能力。然而有监督微调需要大量指令和所对应的标准回复,获取大量高质量的回复需要耗费大量的人力和时间成本。由于,有监督微调通常采用交叉熵损失做为损失函数,目标是调整参数使得模型输出与标准答案完全相同,不能从整体上对模型输出质量进行判断。因此,模型不能适用自然语言多样性,也不能解决微小变化的敏感性问题。强化学习则将模型输出文本作为一个整体进行考虑,其优化目标是使得模型生成高质量回复。此外,强化学习方法还不依赖于人工编写的高质量回复。
2024-05-17 10:19:49 755
原创 AI-Tutoring in Software Engineering Education
随着人工智能(AI)在各个领域的快速发展,人工智能驱动的工具在教育方面表现出巨大的潜力,尤其是在编程方面。然而,目前的研究中缺少对大语言模型(LLMs)作为自动编程评估系统 (APAS)AI-Tutor的科学评估。因此,为了了解学生如何与基于LLMs的AI-Tutor进行互动,并分析他们的体验,这篇文章展开了探索性的案例研究。具体而言,本文在APAS Artemis中集成GPT-3.5-Turbo模型作为人工智能导师,并通过经验数据收集和探索性调查,得出结论
2024-05-08 16:25:42 709
原创 ErrorCLR
规模化的编程教育越来越依赖于自动化反馈来帮助学生学习编程。其中一个重要的反馈形式是指出学生程序中的语义错误,并提供程序修复的提示。这种自动化反馈主要依赖于解决语义错误的分类、定位和修复任务。尽管存在用于这些任务的数据集,但我们观察到它们并不具有支持所有三个任务的注释。因此,现有的语义错误反馈方法将错误分类、定位和修复视为独立的任务,导致每个任务的性能都不理想。此外,现有数据集要么包含少量的编程作业,要么每个作业的程序数量很少。因此,现有方法通常利用基于规则的方法,并使用少量的编程作业进行评估。
2024-05-06 20:35:55 822
原创 Metapath-fused heterogeneous graph network for molecular property prediction
分子性质预测可以指导药物开发中的分子设计和优化。由于分子本质上是图结构的数据,图学习极大地促进了分子性质预测任务。然而,许多现有的基于图的方法都是针对同构图中的低阶节点交互而设计的,忽略了不同类型的原子节点或边。本文将分子建模为异质图,并利用元路径来捕获化学官能团的潜在特征。为了保持元路径所展示的化学环境,本文构造了基于元路径的连通性,并根据关系类型将异构图分解成子图。此外,本文设计了一种层次化的注意策略,在节点级和关系级水平上聚集异质信息。
2024-05-06 20:34:16 766
原创 Chatbot 在教育中的应用
在英语学习中使用聊天机器人与能力、自主性和相关性相关的哪些方面是显而易见的?学生希望教师如何将聊天机器人整合到他们的教学活动中?总的来说,Chatbot在英语学习领域有潜在的积极影响,是有意义的。
2024-05-06 20:33:31 915
原创 Large Language Models for Test-Free Fault Localization
软件错误定位(FL) 旨在自动定位有缺陷的代码行,这是许多手动和自动调试任务中的关键第一步。以前的 FL 技术假设提供输入测试,并且通常需要大量的程序分析、程序检测或数据预处理。之前关于程序自动修复APR)深度学习的工作很难从小数据集中学习,并且在现实世界的程序中产生的结果有限。近年来涌现出一些将大型语言模型LLM)用于代码相关工作的方法,比如代码生成、代码总结等任务,LLM表现出强大的泛化能力。受此启发,文章研究了 LLM 在行级(line-level)错误定位的适用性。
2024-04-26 21:35:41 932
原创 大模型中的RAG
大语言模型(LLM)展示了令人印象深刻的能力,但却遇到了诸如幻觉、过时的知识和不透明、无法追踪的推理过程等挑战。检索-增强生成(RAG)已经通过整合来自外部数据库的知识而成为一种很有前途的解决方案。这提高了生成的准确性和可信度,特别是对于知识密集型任务,并允许持续的知识更新和特定领域信息的集成。RAG 协同地将 LLM 的内在知识与外部数据库的庞大的、动态的存储库结合起来。这篇综述论文提供了对 RAG 进展的详细调查,包括 Naive RAG、Advanced RAG 和 Modular RAG。
2024-04-15 18:43:47 1052
原创 Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models
注:本文不是OpenAI的官方技术报告。Sora是从文本到视频(T2V)的生成式人工智能模型,由OpenAI于2024年2月发布。该模型经过训练,可以从文本指令中生成逼真或富有想象力的场景视频,在模拟物理世界方面表现出潜力。本文基于公开的技术报告和逆向工程,对T2V人工智能模型的背景、相关技术、应用、存在的挑战和未来的发展方向进行了全面综述。考察构建Sora这个"世界模拟器"所使用的底层技术。讨论了广泛部署Sora需要解决的主要挑战和限制,例如确保安全和无偏见的视频生成。
2024-03-18 15:56:15 1038
原创 The impact of chatbots based on large language models on second language vocabulary acquisition
近年来,大语言模型(LLMs)已经在自动化和增强教育任务方面展示了巨大的潜力,能够有效地捕捉人类语言的复杂性和多样性。本文旨在探究基于大语言模型的对话机器人在第二语言词汇学习方面的影响,将52名外语学生分为两组,实验组使用基于LLMs的聊天机器人,对照组则不使用。两组学生在八周的时间里学习相同的目标单词,待结束后进行评估,评估方式包括系统观察与定量测试。研究结果表明,使用基于LLMs的人工智能聊天机器人可以显著帮助学生在第二语言学习过程中获得接受性和生产性词汇知识。
2024-03-18 14:29:35 962
原创 PRewrite: Prompt Rewriting with Reinforcement Learning
工程化的启发式编写对于LLM(大型语言模型)应用的发展至关重要。然而,通常这种编写是以“试错”的方式手动进行的,这可能耗时、低效且不够优化。即使对于表现良好的提示,也总会有一个悬而未决的问题:是否可以通过进一步修改使提示更好?为了解决这些问题,我们在本文中研究了自动化的启发式编写。具体而言,我们提出了PRewrite,一种自动化方法,用于将未优化的提示重写为更有效的提示。我们使用LLM实例化提示重写器。重写器LLM经过强化学习训练,以优化给定下游任务的性能。
2024-03-04 18:18:49 1188
原创 Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models
在各种科学领域,分子发现起着至关重要的作用,推动了定制材料和药物的设计。传统的分子发现方法遵循试错过程,既耗时又昂贵,而计算方法,如人工智能(AI)已经成为加快各种任务,如分子字幕翻译的革命性工具。尽管分子字幕翻译对于分子发现的重要性,但现有的大多数方法严重依赖领域专家,需要过多的计算成本,并且表现不佳。另一方面,像ChatGPT这样的大型语言模型(LLM)在各种跨模态任务中表现出了出色的性能,因为它们在自然语言理解、泛化和推理方面具有强大的能力,这为推进分子发现提供了前所未有的机会。为了解决上述限制,我们
2024-01-09 15:24:41 991
原创 Making Large Language Models Perform Better in Knowledge Graph Completion
本文主要探讨了如何将有用的知识图谱结构信息融入大语言模型中,以实现大语言模型中的结构感知推理。基于大语言模型的知识图补全(KGC)旨在使用LLM预测KGs中缺失的三元组。但目前对基于LLM的KGC的研究有限,缺乏对LLM推理能力的有效利用,忽略了KGs中重要的结构信息,阻碍了LLM获得准确的事实知识。为解决这个问题,本文研究如何将有用的KG结构信息融入到LLM中,实现LLM的结构感知推理。首先将现有的LLM范式转移到结构感知设置中,提出了知识前缀适配器(KoPA)来实现这一目标。
2024-01-08 19:22:05 1506
原创 Unifying Large Language Models and Knowledge Graphs: A Roadmap
大型语言模型(LLMss),如ChatGPT和GPT4,由于其涌现的能力和通用性,正在自然语言处理和人工智能领域掀起新的浪潮。然而,LLMs是黑盒模型,它们往往无法捕捉和获取事实知识。相比之下,知识图(KGs)、维基百科和华普等,都是明确存储丰富事实知识的结构化知识模型。KG可以通过提供外部知识来增强LLMss为了进行推理和可解释性。同时,KGs在本质上难以构建和进化,这对KGs中现有的产生新的事实和代表看不见的知识的方法提出了挑战。因此,将LLMs和KG统一在一起,同时利用它们的优势是互补的。
2024-01-04 00:11:41 2695
原创 Talk Like a Graph: Encoding Graphs for Large Language Models
图是表示和分析现实世界应用中复杂关系的强大工具,如社交网络、推荐系统和计算金融。对图进行推理对于推断复杂系统中实体之间的关系,以及识别隐藏的模式和趋势是必不可少的。尽管在使用自然文本的自动推理方面取得了显著进展,但对使用大语言模型(LLM)的图推理仍然是一个有待研究的问题。这项工作对将图结构数据编码为文本以供LLM使用进行了首次全面研究。证明了LLM在图推理任务上的表现在三个基本层次上有所不同: (1)图编码方法,(2)图任务本身的性质,以及(3)考虑的图结构。
2023-12-18 20:22:08 1230
原创 GraphGPT: Graph Instruction Tuning for Large Language Models
图神经网络(GNN)通过图节点之间的递归信息交换和聚合来实现高级图结构理解。为了提高模型的稳健性,自监督学习(SSL)已成为一种有前途的数据增强方法。然而,现有的得到预训练图嵌入的方法通常要依赖特定下游任务的标签进行微调,这限制了它们在标记数据稀缺或不可用的场景中的可用性。为了解决这个问题,我们的研究重点是提高图模型在具有挑战性的零样本学习场景中的泛化能力。受大语言模型(LLM)的启发,我们的目标是开发一种面向图的 LLM,即使没有下游图数据中的任何可用信息,也可以在不同的下游数据集和任务中实现高度泛化。
2023-12-04 20:09:51 1779 2
原创 Multimodal Foundation Models: From Specialists to General-Purpose Assistants
近年来,人工智能领域在模型发展方面经历4个阶段,如图1所示。任务特定的模型是针对单个数据集和任务开发的,通常从零开始训练。通过大规模预训练,语言模型在许多既定的语言理解和生成任务上取得了先进的性能,为下游任务适配提供了基础。将各种语言理解和生成任务统一到一个模型中。随着网络规模的训练和统一,出现了一些新兴能力,如语境学习和思维链。随着人机对齐研究的进展,LLMs开始扮演通用助理的角色,以遵循人类的意图,完成类型广泛的语言任务。
2023-11-28 11:19:54 2811
原创 Beyond ChatGPT: A conceptual framework and systematic review of speech-recognition chatbots
本文旨在了解不同类型的语音识别Chatbot用于语言学习,以及Chatbot提供的功能支持。通过对37项关于使用Chatbot的实证研究(包括预定义的对话系统到使用人工智能技术的聊天机器人),本文提出了一个概念框架,包括Chatbot的三个关键组成部分:目标导向、具象化和多模态。并使用这个框架作为分析工具,确定并定义了八种Chatbot类型。同时从该框架出发,根据是否含有某个组件派生出共12种功能支持(affordances)。
2023-11-19 16:10:05 79
原创 Can students without prior knowledge use ChatGPT to answer test questions? An empirical study
随着全球对ChatGPT的巨大关注,教育领域出现了兴奋和怀疑的态势。要正确评估ChatGPT对教育的影响,了解它在帮助没有先前知识的学生回答评估问题方面的潜力至关重要。本研究旨在回答这个问题以及问题类型的影响。我们对计算机工程专业的学生进行了多次实验(实验组:n = 41到56),要求他们在学习相关主题之前使用ChatGPT回答先前的测试问题。然后将他们的得分与先前学期在测验或考试环境中回答相同问题的学生的得分进行比较(对照组:n = 24到61)。
2023-11-12 13:50:43 44
原创 分布式训练
在LLM的分布式训练中,因为其参数量过大,为了保证模型参数在各个服务器间的有效通信,舍弃了以往传统的多层树架构(交换机-交换机-机柜),选择采取胖树拓扑结构,试图实现网络带宽的无收敛.:此架构中没有中央服务器或控制节点,而是由节点之间进行直接通信和协调.节点间并行的进行训练和通信,可以显著降低通信开销减少通信墙的影响.,根据不同的通信库的在CPU,GPU上的对通信原语的支持情况不同,不同的分布式集群所采用的通信库也会不同.:主要包含训练服务器和,参数服务器.训练方式主要包含同步训练和异步训练.
2023-11-06 18:20:16 171
原创 LLaMA: Open and Efficient Foundation Language Models
本文介绍了LLaMA,是一个从7B到65B参数的基础语言模型集合。作者在数万亿计的token上训练该模型,证明了仅使用公开数据集也可以训练出SOTA级别的模型,而无需专有或未公开的数据集。最终实验结果显示,LLaMA-13B在大多数基准测试中要优于GPT-3(175B),同时LLaMA-65B与最好的模型Chinchilla-70B、PaLM-540B相比具有竞争力。基于更多的参数会带来更好的性能这一假设,前人将模型越做越大。
2023-11-06 17:58:22 496
原创 LORAPRUNE: PRUNING MEETS LOW-RANK PARAMETER-EFFICIENT FINE-TUNING
大规模预训练模型(LPM),如LLaMA和GLM,通过微调在各种任务中显示出了卓越的性能。尽管参数高效微调方法(PEFT),如低秩适配器(LoRA)的出现降低了大模型微调的成本,但它们的部署仍然受到巨大的模型规模和计算成本的阻碍。神经网络剪枝(Pruning)提供了一种压缩LPM的方法,可以进一步降低模型的计算成本。因此,使用LoRA微调模型适配下游任务和压缩模型便于部署成为可以结合使用的两个工作。我们可以选择先进行微调,后训练剪枝,但这样分离调优和剪枝可能会导致次优的结果。
2023-11-06 17:45:40 902
原创 DrugChat: Towards Enabling ChatGPT-Like Capabilities on Drug Molecule Graphs
用于药物化合物分析的类似于chatgpt的系统可以加速药物发现,增强对结构-活性关系的理解,指导优化,帮助药物重新利用,降低失败率,并简化临床试验。在这项工作中,尝试通过开发一个系统DrugChat,在药物分子图上实现类似于chatgpt的功能。DrugChat的工作方式与ChatGPT类似。用户上传一个化合物分子图,并询问关于这个化合物的各种问题。DrugChat将以多回合、互动的方式回答这些问题。DrugChat系统由一个图神经网络GNN、一个大语言模型LLMs和一个适配器组成。
2023-10-30 20:53:14 220
原创 A deep-learning system bridging molecule structure and biomedical text with comprehension comparable
为了加快生物医学研究过程,开发了深度学习系统,通过读取大规模生物医学数据来自动获取分子实体的知识。受人类从分子结构和生物医学文本信息的多功能阅读中学习深度分子知识的启发,我们提出了一个知识渊博的机器阅读系统,该系统在一个统一的深度学习框架中连接这两种类型的信息,用于全面的生物医学研究辅助。我们解决了现有的机器读取模型只能单独处理不同类型的数据的问题,从而实现了对分子实体的全面和彻底的理解。
2023-10-16 17:20:51 260
原创 Siren’s Song in the AI Ocean: A Survey on Hallucination in Large Language Models
虽然大型语言模型在一系列下游任务中表现出卓越的能力,但一个重要的问题是它们表现出幻觉的倾向:LLMs偶尔会产生偏离用户输入、与先前生成的上下文相矛盾或与既定的世界知识相抵触的内容。这一现象对LLMs在真实场景中的可靠性提出了实质性的挑战。本文回顾了近年来在幻觉的检测、解释和缓解方面所做的努力,并强调了LLMs所带来的独特挑战。本文给出了LLM幻觉现象的分类和评估基准,分析了现有的旨在缓解LLM幻觉的方法,并讨论了潜在的发展方向。
2023-10-06 15:23:43 310
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人