UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
With Ears to See and Eyes to Hear: Sound Symbolism Experiments with Multimodal Large Language Models
最近,在测试心理语言现象的实验中,大型语言模型(LLMs)和视觉语言模型(VLMs)已经证明了作为人类参与者的潜在替代品的能力。然而,一个研究不足的问题是,只有视觉和文本模式的模型在多大程度上能够通过仅从拼写和图像进行抽象推理来隐含地理解基于声音的现象。为了研究这一点,我们分析了VLM和LLM展示声音象征意义的能力(即识别声音和概念之间的非任意联系),以及它们通过开放和闭源多模态模型的语言和视觉模块的相互作用“听到”的能力。原创 2024-11-11 21:33:35 · 161 阅读 · 0 评论 -
2D-TPE: Two-Dimensional Positional Encoding Enhances Table Understanding for Large Language Models
表格在各种域中无处不在,用于简洁地表示结构化信息。使大型语言模型 (LLM) 能够对表格数据进行推理代表了一个积极探索的方向。但是,由于典型的 LLM 仅支持一维 (1D) 输入,因此现有方法通常会将二维 (2D) 表结构扁平化为一系列标记,这可能会严重破坏空间关系并导致不可避免地丢失重要的上下文信息。在本文中,我们首先通过两个精心设计的代理任务,实证证明了这种扁平化操作对 LLM 在捕获表的空间信息方面的性能的不利影响。原创 2024-11-11 21:24:46 · 235 阅读 · 0 评论 -
Robustness of Structured Data Extraction from In-plane Rotated Documents using Multi-Modal LLM
多模态大型语言模型 (LLM) 在各种自然语言处理任务(包括从文档中提取数据)中表现出卓越的性能。但是,这些模型的准确性可能会受到文档平面内旋转(也称为倾斜)的显著影响,这是扫描文档的实际场景中的常见问题。本研究调查了文档偏斜对三种最先进的多模态 LLM 的数据提取准确性的影响:Anthropic Claude V3 Sonnet、GPT-4-Turbo 和 Llava:v1.6。我们专注于从合成生成的具有不同偏度的样本文档中提取特定实体。原创 2024-11-13 10:15:00 · 3 阅读 · 0 评论 -
Exploring Multilingual Large Language Models for Enhanced TNM classification of Radiology Report
背景:由于劳动密集型结构和叙述式报告,结构化放射学报告仍然不发达。深度学习,尤其是像 GPT-3.5 这样的大型语言模型 (LLM),有望以自然语言自动构建放射学报告。然而,尽管有报道 LLM 在英语以外的语言中效果较差,但其放射学性能尚未得到广泛研究。目的:本研究旨在调查使用 GPT3.5-turbo (GPT3.5) 的放射学报告对 TNM 分类的准确性以及多语言 LLM 在日语和英语中的效用。材料和方法。原创 2024-11-12 10:00:00 · 8 阅读 · 0 评论 -
mHumanEval - A Multilingual Benchmark to Evaluate Large Language Models for Code Generation
大型语言模型 (LLM) 的最新进展显著增强了从自然语言提示生成代码的能力。由 OpenAI 开发的 HumanEval 基准测试仍然是使用最广泛的代码生成基准测试。然而,这个和其他 Code LLM 基准测试面临着严重的限制,特别是在任务多样性、测试覆盖率和语言范围方面。当前的评估主要集中在测试用例有限的英语到 Python 转换任务上,可能会高估模型性能。虽然最近的工作解决了测试覆盖率和编程语言 (PL) 多样性,但从低资源语言提示生成代码在很大程度上仍未得到探索。原创 2024-11-13 09:30:00 · 206 阅读 · 0 评论 -
Evaluating Self-Generated Documents for Enhancing Retrieval-Augmented Generation with Large Language
在检索增强生成系统中,自生成文档 (SGD) 与检索内容的集成已成为提高大型语言模型性能的一种有前途的策略。然而,以前的研究主要集中在优化 SGD 的使用上,而 SGD 的固有特性仍未得到充分探索。因此,本文对不同类型的 SGD 进行了全面分析,并对各种知识密集型任务进行了实验。我们开发了基于系统功能语言学 (SFL) 的 SGD 分类法,以比较不同 SGD 类别的影响。我们的研究结果为哪些类型的 SGD 最有效地有助于提高 LLM 的性能提供了关键见解。原创 2024-11-12 09:30:00 · 84 阅读 · 0 评论 -
Prompt Compression for Large Language Models: A Survey
将大型语言模型 (LLM) 用于复杂的自然语言任务通常需要长格式提示来传达详细的需求和信息,这会导致内存使用和推理成本增加。为了缓解这些挑战,已经提出了多种有效的方法,其中提示压缩引起了研究的极大兴趣。本调查概述了提示压缩技术,分为硬提示方法和软提示方法。首先,比较了这些方法的技术方法,然后探索了理解其机制的各种方法,包括注意力优化、参数高效微调 (PEFT)、模态集成和新的合成语言的观点。我们还研究了各种提示压缩技术的下游适应。原创 2024-11-11 10:07:48 · 453 阅读 · 0 评论 -
A Comparative Analysis on Ethical Benchmarking in Large Language Models
这项工作是对机器伦理 (ME) 基准测试领域的贡献,在该领域,开发了测试来衡量智能系统是否准确表示了人类价值观,以及它们是否可靠地按照这些价值观行事。我们确定了当前 ME 基准的三个问题:首先,由于所包含的伦理困境的现实性不足,它们的生态效度受到限制。其次,问答对通常是以相当非结构化的方式生成的,没有真正的包含和排除标准。第三,基准测试通常不可扩展,并且过于依赖人工注释。最后,基准测试不包括足够的语法变化,这限制了结果的稳健性。为了解决这些问题,我们开发了两个新颖的 ME 基准测试;原创 2024-11-09 20:57:37 · 126 阅读 · 0 评论 -
A CLOSER LOOK AT MACHINE UNLEARNING FOR LARGE LANGUAGE MODELS
大型语言模型 (LLM) 可能会记住敏感或受版权保护的内容,从而引发隐私和法律问题。由于从头开始重新训练的成本很高,研究人员尝试使用机器遗忘学习从 LLM 中删除特定内容,同时保持整体性能。在本文中,我们讨论了 LLM 机器学习中的几个问题,并提供了我们对可能方法的见解。为了解决忘却后模型输出评估不充分的问题,我们引入了三个额外的指标来评估标记多样性、句子语义和事实正确性。然后,我们将忘却方法分为 untargeted 和 targeted,并分别讨论它们的问题。原创 2024-11-11 09:15:00 · 98 阅读 · 0 评论 -
LayTextLLM: A Bounding Box is Worth One Token Interleaving Layout and Text in a Large Language Model
最近,许多研究表明,将 OCR 衍生的文本和空间布局专门与大型语言模型 (LLM) 相结合对于文档理解任务非常有效。但是,将空间布局与文本集成的现有方法存在局限性,例如生成过长的文本序列或无法充分利用 LLM 的自回归特征。在这项工作中,我们介绍了大型语言模型中的交错布局和文本 (LayTextLLM) 用于文档理解。特别是,LayTextLLM 将每个边界框投影到单个嵌入中,并将其与文本交错,从而有效地避免了长序列问题,同时利用了 LLM 的自回归特征。原创 2024-11-10 09:00:00 · 86 阅读 · 0 评论 -
1 Trillion Token (1TT) Platform: A Novel Framework for Efficient Data Sharing and Compensation
在本文中,我们提出了 1 万亿token平台(1TT Platform),这是一个新颖的框架,旨在通过透明和公平的利润分享机制促进高效的数据共享。该平台促进了数据贡献者之间的协作,前者提供原本未披露的数据集,后者利用这些数据集来增强自己的服务。数据贡献者以货币形式获得报酬,获得数据消费者服务产生的收入的一部分。数据使用者承诺根据预定义的利润分享安排与贡献者分享部分收入。通过采用透明的利润分享范式来激励大规模数据共享,1TT 平台创造了一个协作环境来推动 NLP 和 LLM 技术的进步。原创 2024-11-10 09:30:00 · 10 阅读 · 0 评论 -
CODEJUDGE : Evaluating Code Generation with Large Language Models
大型语言模型(LLM)在代码生成方面表现出了良好的性能。然而,如何可靠地评估LLM生成的代码仍然是一个未解决的问题。本文介绍了CODEJUDGE,这是一个代码评估框架,它利用LLM来评估生成代码的语义正确性,而不需要测试用例。我们研究了不同的方法来指导LLM进行“慢思维”,以获得深入可靠的评估。我们在四个代码生成数据集和五种编程语言上用四个LLM作为评估器进行了实验。结果表明,在大多数情况下,CODEJUDGE的表现明显优于现有方法。原创 2024-11-09 10:15:00 · 123 阅读 · 0 评论 -
The Use of Multimodal Large Language Models to Detect Objects from Thermal Images: Transportation
热成像数据与多模态大型语言模型 (MLLM) 的集成为提高自动驾驶系统和许多智能交通系统 (ITS) 应用的安全性和功能性提供了一个令人兴奋的机会。本研究调查了 MLLM 是否可以理解来自 RGB 和热像仪的复杂图像并直接检测物体。我们的目标是 1) 评估 MLLM 从各种集合中学习信息的能力,2) 检测物体并识别热像仪中的元素,3) 确定两个独立的模态图像是否显示相同的场景,以及 4) 使用不同的模态学习所有物体。研究结果表明,GPT-4 和 Gemini 在检测和分类热图像中的物体方面都很有效。原创 2024-11-09 09:30:00 · 85 阅读 · 0 评论 -
Prometheus Chatbot: Knowledge Graph Collaborative Large Language Model for Computer Components
知识图谱 (KG) 在网络对齐、问答和推荐系统 (RS) 等应用中至关重要,因为它们提供结构化的关系数据,有助于推断间接关系。然而,开发能够以自然语言处理用户输入的基于 KG 的 RS 面临着重大挑战。首先,自然语言处理单元必须有效地处理人类语言中的歧义和可变性,以准确解释用户意图。其次,系统必须精确识别实体(如产品名称)并将其链接到 KG 中的相应节点。原创 2024-11-08 09:54:44 · 122 阅读 · 0 评论 -
Unlock the Correlation between Supervised Fine-Tuning and Reinforcement Learning in Training Code
自动代码生成一直是一个由来已久的研究课题。随着通用大型语言模型 (LLM) 的进步,编码能力成为衡量模型推理性能的重要指标之一。通常,为了获得 Code LLM,会实施两个阶段的训练范式,即预训练和微调。在微调中,监督微调 (SFT) 和强化学习 (RL) 通常用于提高模型的零样本能力。已经进行了大量工作,通过修改算法或优化数据集来提高模型在代码相关基准上的性能。然而,我们仍然缺乏对 SFT 和 RL 之间相关性的深刻见解。原创 2024-11-08 09:45:54 · 97 阅读 · 0 评论 -
MusicRL: Aligning Music Generation to Human Preferences
我们提出了MusicRL,这是第一个根据人类反馈进行微调的音乐生成系统。对文本到音乐模型的欣赏是特别主观的,因为音乐性的概念以及字幕背后的具体意图取决于用户(例如,“欢快的锻炼音乐”等字幕可以映射到复古吉他独奏或技术流行节拍)。这不仅使此类模型的监督训练具有挑战性,而且还要求将持续的人类反馈集成到部署后的微调中。MusicRL是一个预训练的自回归MusicLM模型,该模型通过强化学习进行微调,以最大化序列级奖励。原创 2024-11-07 10:15:14 · 12 阅读 · 0 评论 -
CAN KNOWLEDGE EDITING REALLY CORRECT HALLUCINATIONS?
大型语言模型(LLM)会出现幻觉,指代生成内容中的非真实信息,尽管它们在任务中具有优越的能力。与此同时,知识编辑已经发展成为一种新的流行范式,可以纠正LLM中编码的错误事实知识,从而避免从头开始重新训练。然而,用于知识编辑的现有评估数据集的一个常见问题是,它们不能确保LLM在编辑之前确实生成了对评估问题的幻觉答案。当LLM在经过不同技术编辑后在这些数据集上进行评估时,很难直接采用性能来评估不同知识编辑方法在纠正幻觉方面的有效性。因此,根本问题仍然没有得到充分验证:知识编辑真的能纠正LLM中的幻觉吗?原创 2024-11-06 11:08:46 · 421 阅读 · 0 评论 -
OmniParser for Pure Vision Based GUI Agent
最近大型视觉语言模型的成功表明,在推动代理系统在用户界面上运行方面具有巨大的潜力。然而,我们认为,由于缺乏一种强大的屏幕解析技术,如GPT-4V作为跨不同应用程序的多个操作系统上的通用代理,这种多模态模型在很大程度上被低估了,该技术能够:1)可靠地识别用户界面内的可交互图标,2)理解屏幕截图中各种元素的语义,并准确地将预期动作与屏幕上的相应区域相关联。原创 2024-11-07 10:00:00 · 123 阅读 · 0 评论 -
Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities
GPT-4o是一个包罗万象的模型,代表了大型多模态语言模型发展的一个里程碑。它可以理解视觉、听觉和文本模式,直接输出音频,并支持灵活的双工交互。开源社区的模型通常可以实现GPT-4o的一些功能,如视觉理解和语音聊天。然而,由于多模态数据、复杂的模型架构和训练过程的复杂性,训练一个包含所有模态的统一模型是具有挑战性的。在本文中,我们介绍了Mini-Omni2,一种能够为视觉和音频查询提供实时端到端语音响应的视听助手。通过集成预训练的视觉和听觉编码器,Mini-Omni2可以保持单个模态的性能。原创 2024-11-07 09:45:00 · 16 阅读 · 0 评论 -
OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback
大型语言和多模态模型的快速发展引发了人们对使用GPT4o等专有模型开发能够处理网络导航等现实场景的自主代理的浓厚兴趣。尽管最近的开源努力试图让代理具备探索环境的能力,并随着时间的推移不断改进,但他们正在合成环境中构建纯文本代理,在这种环境中,奖励信号是明确定义的。这些智能体很难推广到需要多模态感知能力且缺乏地面真实信号的现实环境中。本文介绍了一个开源框架,旨在促进多模态web代理的开发,该代理可以自主进行现实世界的探索并自我改进。我们首先通过模仿学习训练基础模型,以获得基本能力。原创 2024-11-06 10:30:00 · 15 阅读 · 0 评论 -
Retrieval-Augmented Diffusion Models for Time Series Forecasting
虽然时间序列扩散模型在最近的许多研究中受到了相当大的关注,但现有模型的性能仍然高度不稳定。限制时间序列扩散模型的因素包括时间序列数据集不足和缺乏指导。为了解决这些局限性,我们提出了一种检索增强时间序列扩散模型(RATD)。RATD的框架由两部分组成:基于嵌入的检索过程和参考引导的扩散模型。在第一部分中,RATD从数据库中检索与历史时间序列最相关的时间序列作为参考。第二部分利用参考文献指导去噪过程。我们的方法允许利用数据库中有意义的样本来帮助采样,从而最大限度地利用数据集。原创 2024-11-06 09:30:00 · 70 阅读 · 0 评论 -
A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs
大型语言模型(LLM)开发的一个主要挑战是其繁重的预训练成本。通常,这种预训练涉及在大型语料库上优化自我监督目标(如下一个token预测)。本文探索了一种通过适当利用小语言模型(SLM)来提高LLM预训练效率和质量的有前景的范式。特别是,这种范式依赖于SLM来(1)提供软标签作为额外的训练监督,以及(2)选择一小部分有价值的(“信息”和“硬”)训练示例。总的来说,这使得SLM的预测分布能够有效地转移到LLM,同时优先考虑训练数据分布的特定区域。原创 2024-11-05 16:30:13 · 82 阅读 · 0 评论 -
A Survey of Small Language Models
小型语言模型(SLM)因其以最少的计算资源执行各种语言任务的效率和性能而变得越来越重要,使其成为各种设置的理想选择,包括设备上、移动设备、边缘设备等。在这篇文章中,我们对SLM进行了全面的调查,重点介绍了它们的架构、训练技术和模型压缩技术。我们提出了一种新的分类方法,用于对用于优化SLM的方法进行分类,包括模型压缩、修剪和量化技术。我们总结了可用于对SLM进行基准测试的基准数据集以及常用的评估指标。此外,我们强调了仍有待解决的关键开放挑战。原创 2024-11-05 16:15:45 · 302 阅读 · 0 评论 -
Unraveling the Dominance of Large Language Models Over Transformer Models for Bangla Natural Languag
自然语言推理 (NLI) 是自然语言处理 (NLP) 的基石,提供对文本配对之间蕴涵关系的见解。它是自然语言理解 (NLU) 的关键组成部分,展示了从口头或书面交互中提取信息的能力。NLI 主要关注确定两个陈述之间的蕴涵关系,称为前提和假设。当前提在逻辑上暗示假设时,这对被标记为“蕴涵”。如果假设与前提相矛盾,则对将获得“矛盾”标签。当没有足够的证据建立联系时,该对被描述为 “中立”。原创 2024-11-04 19:46:11 · 168 阅读 · 0 评论 -
Artificial Agency and Large Language Models
大型语言模型 (LLM) 的到来引发了关于以人工方式实现代理的可能性的哲学辩论。在这项工作中,我们通过提出一个可以用作人工代理的阈值概念的理论模型来为辩论做出贡献。该模型将代理定义为其操作和目标始终受动态因素框架影响的系统,该框架由代理的可访问历史记录、其适应性库和外部环境组成。反过来,这个框架会受到代理采取的行动和它形成的目标的影响。我们借助该模型表明,最先进的 LLM 还不是代理,但它们有一些元素可以建议前进的方向。原创 2024-11-04 19:38:05 · 96 阅读 · 0 评论 -
Are Large Language Models Chameleons?
大型语言模型 (LLM) 有自己的世界观和个性倾向吗?要求 LLM 回答主观问题的模拟进行了超过 100 万次。将不同 LLM 的回答与欧洲社会调查 (ESS) 的真实数据进行比较表明,提示对偏见和可变性的影响是根本性的,突出了主要的文化、年龄和性别偏见。讨论了测量 LLM 和调查数据之间差异的方法,例如计算加权平均值和受 Jaccard 相似性启发的新提议的度量。我们得出的结论是,在使用 LLM 对个人决策或集体行为进行建模之前,分析提示的稳健性和可变性很重要,因为它们的模仿能力充其量只是近似的。原创 2024-11-03 10:15:39 · 96 阅读 · 0 评论 -
Addressing Topic Granularity and Hallucination in Large Language Models for Topic Modelling
大型语言模型 (LLM) 具有强大的零样本主题提取功能,为概率主题建模和封闭集主题分类方法提供了一种替代方案。作为零样本主题提取器,LLM 应该理解人类指令,以根据给定的文档生成相关且非幻觉的主题。然而,基于 LLM 的主题建模方法在生成符合人工指令中规定的粒度的主题时经常面临困难,这通常会导致许多几乎重复的主题。此外,尚未研究解决 LLM 产生的幻觉主题的方法。在本文中,我们专注于解决主题粒度和幻觉问题,以实现更好的基于 LLM 的主题建模。原创 2024-11-03 10:11:43 · 19 阅读 · 0 评论 -
ACTIVELLM: LARGE LANGUAGE MODEL-BASED ACTIVE LEARNING FOR TEXTUAL FEW-SHOT SCENARIOS
主动学习旨在通过优先考虑最能增强学习的实例来最大限度地减少注释工作。然而,许多主动学习策略都在努力解决 “冷启动” 问题,需要大量的初始数据才能有效。这种限制通常会降低它们对预训练模型的效用,这些模型在小样本场景中已经表现良好。为了解决这个问题,我们引入了 ActiveLLM,这是一种新颖的主动学习方法,它利用 GPT-4、Llama 3 和 Mistral Large 等大型语言模型来选择实例。原创 2024-11-02 23:19:08 · 85 阅读 · 0 评论 -
A System for Automated Unit Test Generation Using Large Language Models and Assessment of Generate
单元测试代表了软件测试生命周期中最基本的测试级别,对于确保软件正确性至关重要。设计和创建单元测试是一个成本高昂且劳动密集型的过程,但自动化的时机已经成熟。最近,大型语言模型 (LLM) 已应用于软件开发的各个方面,包括单元测试生成。尽管存在一些评估 LLM 在测试代码生成方面的能力的实证研究,但它们主要集中在简单的场景上,例如为单个方法直接生成单元测试。这些评估通常涉及独立的小规模测试单元,从而提供 LLM 在实际软件开发场景中性能的有限视图。此外,以前的研究并没有以适合实际应用的规模来处理这个问题。原创 2024-11-02 23:16:40 · 120 阅读 · 0 评论 -
RETRIEVAL MEETS LONG CONTEXT LARGE LANGUAGE MODELS
扩展大型语言模型(LLM)的上下文窗口最近越来越流行,而通过检索来增强LLM的解决方案已经存在多年。自然的问题是:i)检索增强与长上下文窗口,哪一个更适合下游任务?ii)能否将这两种方法结合起来,实现两全其美?在这项工作中,我们通过使用两种最先进的预训练LLM研究这两种解决方案来回答这些问题,即专有的43B GPT和LLaMA2-70B。原创 2024-11-01 14:14:41 · 22 阅读 · 0 评论 -
EventChat: Implementation and user-centric evaluation of a large language model-driven conversation
大型语言模型 (LLM) 代表了对话式推荐系统 (CRS) 的战略潜力的巨大演变。然而,迄今为止,研究主要集中在实施 LLM 驱动的 CRS 的技术框架上,而不是最终用户评估或对公司的战略影响,特别是从构成全球经济基石的中小型企业 (SME) 的角度来看。在本文中,我们详细介绍了 SME 环境中 LLM 驱动的 CRS 的设计,以及使用客观系统指标和主观用户评估的后续现场表现。在此过程中,我们还概述了一个简短的修订版 ResQue 模型,用于评估 LLM 驱动的 CRS,从而在快速发展的领域中实现可复制性。原创 2024-11-01 14:11:51 · 135 阅读 · 0 评论 -
RadioRAG: Factual Large Language Models for Enhanced Diagnostics in Radiology Using Dynamic
大型语言模型 (LLM) 推动了医学人工智能 (AI) 领域的发展。但是,LLM 通常会根据静态训练数据集生成过时或不准确的信息。检索增强生成 (RAG) 通过集成外部数据源来缓解这种情况。以前的 RAG 系统使用预先组装的固定数据库,灵活性有限,而我们已经开发了放射学 RAG (RadioRAG) 作为端到端框架,可以从权威放射学在线资源实时检索数据。RadioRAG 使用专用的放射学问答数据集 (RadioQA) 进行评估。原创 2024-11-01 14:04:48 · 22 阅读 · 0 评论 -
Active Testing of Large Language Model via Multi-Stage Sampling
性能评估在大型语言模型 (LLM) 的开发生命周期中起着至关重要的作用。它估计模型的能力,阐明行为特征,并有助于识别潜在的问题和限制,从而指导进一步的改进。鉴于 LLM 的不同任务处理能力源于大量的训练数据,因此全面评估还需要大量、注释良好且具有代表性的测试数据来评估 LLM 在各种下游任务中的性能。然而,对高质量测试数据的需求通常需要大量的时间、计算资源和手动工作,有时会导致评估效率低下或不切实际。为了应对这些挑战,研究人员提出了主动测试,即通过选择测试数据的子集来估计整体性能。原创 2024-10-31 21:45:08 · 147 阅读 · 0 评论 -
A Survey of using Large Language Models for Generating Infrastructure as Code
基础设施即代码 (IaC) 是一种革命性的方法,在行业中获得了极大的重视。IaC 通过实现自动化、跨环境一致性、可重复性、版本控制、减少错误和增强可扩展性,使用机器可读代码管理和配置 IT 基础设施。然而,IaC 编排通常是一项艰苦的工作,需要专业技能和大量的手动工作。在目前的行业条件下,IaC 的自动化是必要的,在本次调查中,我们研究了应用大型语言模型 (LLM) 来解决这个问题的可行性。LLM 是基于神经网络的大型模型,已展示出强大的语言处理能力,并表明能够在广泛的范围内遵循一系列指令。原创 2024-10-31 21:20:43 · 132 阅读 · 0 评论 -
ADELIE: Aligning Large Language Models on Information Extraction
大型语言模型 (LLM) 通常无法完成信息提取 (IE) 任务,并且难以遵循 IE 任务的复杂指令。这主要是由于 LLM 未与人类对齐,因为主流对齐数据集通常不包含 IE 数据。在本文中,我们介绍了 ADELIE(在信息提取上对齐大型语言 moDEL),这是一种对齐的 LLM,可有效解决各种 IE 任务,包括封闭 IE、开放 IE 和按需 IE。我们首先收集并构建一个高质量的对齐语料 IEInstruct for IE。然后,我们使用 IEInstruct 上的指令调优来训练 ADELIESFT。原创 2024-10-30 19:48:50 · 124 阅读 · 0 评论 -
A Watermark for Low-entropy and Unbiased Generation in Large Language Models
大型语言模型 (LLM) 的最新进展凸显了滥用的风险,引发了对准确检测 LLM 生成内容的担忧。检测问题的可行解决方案是将难以察觉的标识符注入 LLM,称为水印。以前的工作表明,无偏见的水印通过保持 LLM 输出概率分布的期望来确保不可伪造并保持文本质量。但是,以前的无偏水印方法对于本地部署是不切实际的,因为它们依赖于在检测过程中访问白盒 LLM 和输入提示。此外,这些方法未能为水印检测的 II 类误差提供统计保证。原创 2024-10-30 19:43:25 · 86 阅读 · 0 评论 -
A User-Centric Benchmark for Evaluating Large Language Models
大型语言模型 (LLM) 是与用户协作完成不同任务的重要工具。评估它们的性能以满足用户在实际场景中的需求非常重要。虽然已经创建了许多基准测试,但它们主要关注特定的预定义模型能力。很少有人介绍真实用户对 LLM 的预期用途。为了解决这一疏忽,我们建议在数据集构建和评估设计中从用户的角度对 LLM 进行基准测试。我们首先从来自 23 个国家/地区的 712 名参与者的用户研究中收集了 1,846 个真实案例和 15 个 LLM。这形成了用户报告场景 (URS) 数据集,其中包含 7 个用户意图的分类。原创 2024-10-29 16:33:13 · 113 阅读 · 0 评论 -
Empowering Large Language Models for Textual Data Augmentation
凭借理解和执行自然语言指令的能力,大型语言模型 (LLM) 有可能成为文本数据增强的强大工具。但是,增强数据的质量在很大程度上取决于提供的增强指令,并且有效性可能会因不同的下游任务而波动。虽然手动制作和选择指令可以提供一些改进,但由于下游任务的多样性,这种方法在实践中面临可扩展性和一致性问题。在这项工作中,我们通过提出一种新的解决方案来解决这些限制,该解决方案可以自动生成大量增强指令并选择最合适的任务知情指令,从而使 LLM 能够为不同的下游任务创建高质量的增强数据。原创 2024-10-29 16:29:03 · 388 阅读 · 0 评论 -
The GPT Surprise: Offering Large Language Model Chat in a Massive Coding Class Reduced Engagement
大型语言模型 (LLM) 正迅速被广泛应用于各种学习体验中,尤其是通过 ChatGPT 和 Copilot 等无处不在且可广泛访问的聊天界面。这种类型的界面对世界各地的学生和教师来说都很容易获得,但评估此类通用工具对学生学习影响的研究相对较少。编码教育是一个有趣的测试案例,这既是因为 LLM 在编码任务上具有强大的性能,还因为 LLM 支持的支持工具正迅速成为专业软件工程师工作流程的一部分。原创 2024-10-28 11:13:53 · 438 阅读 · 0 评论 -
HELPSTEER2-PREFERENCE: COMPLEMENTING RATINGS WITH PREFERENCES
奖励模型对于使模型符合说明至关重要,通常按照两种流行的范式之一进行训练:Bradley Terry风格或回归风格。然而,缺乏证据表明,当数据充分匹配时,这两种方法都比另一种方法好。这主要是因为这些方法需要以不同(但不兼容)的格式收集数据,这意味着现有的公共数据集中没有足够匹配的数据。为了解决这个问题,我们发布了偏好注释(专为Bradley Terry训练设计),以补充HelpSteer2数据集中的现有评级(专为回归风格训练设计)。为了提高数据的可解释性,偏好注释伴随着人工编写的理由。原创 2024-10-28 10:37:46 · 103 阅读 · 0 评论
分享