UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
Unraveling the Dominance of Large Language Models Over Transformer Models for Bangla Natural Languag
自然语言推理 (NLI) 是自然语言处理 (NLP) 的基石,提供对文本配对之间蕴涵关系的见解。它是自然语言理解 (NLU) 的关键组成部分,展示了从口头或书面交互中提取信息的能力。NLI 主要关注确定两个陈述之间的蕴涵关系,称为前提和假设。当前提在逻辑上暗示假设时,这对被标记为“蕴涵”。如果假设与前提相矛盾,则对将获得“矛盾”标签。当没有足够的证据建立联系时,该对被描述为 “中立”。原创 2024-11-04 19:46:11 · 157 阅读 · 0 评论 -
Artificial Agency and Large Language Models
大型语言模型 (LLM) 的到来引发了关于以人工方式实现代理的可能性的哲学辩论。在这项工作中,我们通过提出一个可以用作人工代理的阈值概念的理论模型来为辩论做出贡献。该模型将代理定义为其操作和目标始终受动态因素框架影响的系统,该框架由代理的可访问历史记录、其适应性库和外部环境组成。反过来,这个框架会受到代理采取的行动和它形成的目标的影响。我们借助该模型表明,最先进的 LLM 还不是代理,但它们有一些元素可以建议前进的方向。原创 2024-11-04 19:38:05 · 89 阅读 · 0 评论 -
Are Large Language Models Chameleons?
大型语言模型 (LLM) 有自己的世界观和个性倾向吗?要求 LLM 回答主观问题的模拟进行了超过 100 万次。将不同 LLM 的回答与欧洲社会调查 (ESS) 的真实数据进行比较表明,提示对偏见和可变性的影响是根本性的,突出了主要的文化、年龄和性别偏见。讨论了测量 LLM 和调查数据之间差异的方法,例如计算加权平均值和受 Jaccard 相似性启发的新提议的度量。我们得出的结论是,在使用 LLM 对个人决策或集体行为进行建模之前,分析提示的稳健性和可变性很重要,因为它们的模仿能力充其量只是近似的。原创 2024-11-03 10:15:39 · 77 阅读 · 0 评论 -
Addressing Topic Granularity and Hallucination in Large Language Models for Topic Modelling
大型语言模型 (LLM) 具有强大的零样本主题提取功能,为概率主题建模和封闭集主题分类方法提供了一种替代方案。作为零样本主题提取器,LLM 应该理解人类指令,以根据给定的文档生成相关且非幻觉的主题。然而,基于 LLM 的主题建模方法在生成符合人工指令中规定的粒度的主题时经常面临困难,这通常会导致许多几乎重复的主题。此外,尚未研究解决 LLM 产生的幻觉主题的方法。在本文中,我们专注于解决主题粒度和幻觉问题,以实现更好的基于 LLM 的主题建模。原创 2024-11-03 10:11:43 · 10 阅读 · 0 评论 -
ACTIVELLM: LARGE LANGUAGE MODEL-BASED ACTIVE LEARNING FOR TEXTUAL FEW-SHOT SCENARIOS
主动学习旨在通过优先考虑最能增强学习的实例来最大限度地减少注释工作。然而,许多主动学习策略都在努力解决 “冷启动” 问题,需要大量的初始数据才能有效。这种限制通常会降低它们对预训练模型的效用,这些模型在小样本场景中已经表现良好。为了解决这个问题,我们引入了 ActiveLLM,这是一种新颖的主动学习方法,它利用 GPT-4、Llama 3 和 Mistral Large 等大型语言模型来选择实例。原创 2024-11-02 23:19:08 · 77 阅读 · 0 评论 -
A System for Automated Unit Test Generation Using Large Language Models and Assessment of Generate
单元测试代表了软件测试生命周期中最基本的测试级别,对于确保软件正确性至关重要。设计和创建单元测试是一个成本高昂且劳动密集型的过程,但自动化的时机已经成熟。最近,大型语言模型 (LLM) 已应用于软件开发的各个方面,包括单元测试生成。尽管存在一些评估 LLM 在测试代码生成方面的能力的实证研究,但它们主要集中在简单的场景上,例如为单个方法直接生成单元测试。这些评估通常涉及独立的小规模测试单元,从而提供 LLM 在实际软件开发场景中性能的有限视图。此外,以前的研究并没有以适合实际应用的规模来处理这个问题。原创 2024-11-02 23:16:40 · 114 阅读 · 0 评论 -
RETRIEVAL MEETS LONG CONTEXT LARGE LANGUAGE MODELS
扩展大型语言模型(LLM)的上下文窗口最近越来越流行,而通过检索来增强LLM的解决方案已经存在多年。自然的问题是:i)检索增强与长上下文窗口,哪一个更适合下游任务?ii)能否将这两种方法结合起来,实现两全其美?在这项工作中,我们通过使用两种最先进的预训练LLM研究这两种解决方案来回答这些问题,即专有的43B GPT和LLaMA2-70B。原创 2024-11-01 14:14:41 · 16 阅读 · 0 评论 -
EventChat: Implementation and user-centric evaluation of a large language model-driven conversation
大型语言模型 (LLM) 代表了对话式推荐系统 (CRS) 的战略潜力的巨大演变。然而,迄今为止,研究主要集中在实施 LLM 驱动的 CRS 的技术框架上,而不是最终用户评估或对公司的战略影响,特别是从构成全球经济基石的中小型企业 (SME) 的角度来看。在本文中,我们详细介绍了 SME 环境中 LLM 驱动的 CRS 的设计,以及使用客观系统指标和主观用户评估的后续现场表现。在此过程中,我们还概述了一个简短的修订版 ResQue 模型,用于评估 LLM 驱动的 CRS,从而在快速发展的领域中实现可复制性。原创 2024-11-01 14:11:51 · 127 阅读 · 0 评论 -
RadioRAG: Factual Large Language Models for Enhanced Diagnostics in Radiology Using Dynamic
大型语言模型 (LLM) 推动了医学人工智能 (AI) 领域的发展。但是,LLM 通常会根据静态训练数据集生成过时或不准确的信息。检索增强生成 (RAG) 通过集成外部数据源来缓解这种情况。以前的 RAG 系统使用预先组装的固定数据库,灵活性有限,而我们已经开发了放射学 RAG (RadioRAG) 作为端到端框架,可以从权威放射学在线资源实时检索数据。RadioRAG 使用专用的放射学问答数据集 (RadioQA) 进行评估。原创 2024-11-01 14:04:48 · 14 阅读 · 0 评论 -
Active Testing of Large Language Model via Multi-Stage Sampling
性能评估在大型语言模型 (LLM) 的开发生命周期中起着至关重要的作用。它估计模型的能力,阐明行为特征,并有助于识别潜在的问题和限制,从而指导进一步的改进。鉴于 LLM 的不同任务处理能力源于大量的训练数据,因此全面评估还需要大量、注释良好且具有代表性的测试数据来评估 LLM 在各种下游任务中的性能。然而,对高质量测试数据的需求通常需要大量的时间、计算资源和手动工作,有时会导致评估效率低下或不切实际。为了应对这些挑战,研究人员提出了主动测试,即通过选择测试数据的子集来估计整体性能。原创 2024-10-31 21:45:08 · 142 阅读 · 0 评论 -
A Survey of using Large Language Models for Generating Infrastructure as Code
基础设施即代码 (IaC) 是一种革命性的方法,在行业中获得了极大的重视。IaC 通过实现自动化、跨环境一致性、可重复性、版本控制、减少错误和增强可扩展性,使用机器可读代码管理和配置 IT 基础设施。然而,IaC 编排通常是一项艰苦的工作,需要专业技能和大量的手动工作。在目前的行业条件下,IaC 的自动化是必要的,在本次调查中,我们研究了应用大型语言模型 (LLM) 来解决这个问题的可行性。LLM 是基于神经网络的大型模型,已展示出强大的语言处理能力,并表明能够在广泛的范围内遵循一系列指令。原创 2024-10-31 21:20:43 · 130 阅读 · 0 评论 -
ADELIE: Aligning Large Language Models on Information Extraction
大型语言模型 (LLM) 通常无法完成信息提取 (IE) 任务,并且难以遵循 IE 任务的复杂指令。这主要是由于 LLM 未与人类对齐,因为主流对齐数据集通常不包含 IE 数据。在本文中,我们介绍了 ADELIE(在信息提取上对齐大型语言 moDEL),这是一种对齐的 LLM,可有效解决各种 IE 任务,包括封闭 IE、开放 IE 和按需 IE。我们首先收集并构建一个高质量的对齐语料 IEInstruct for IE。然后,我们使用 IEInstruct 上的指令调优来训练 ADELIESFT。原创 2024-10-30 19:48:50 · 114 阅读 · 0 评论 -
A Watermark for Low-entropy and Unbiased Generation in Large Language Models
大型语言模型 (LLM) 的最新进展凸显了滥用的风险,引发了对准确检测 LLM 生成内容的担忧。检测问题的可行解决方案是将难以察觉的标识符注入 LLM,称为水印。以前的工作表明,无偏见的水印通过保持 LLM 输出概率分布的期望来确保不可伪造并保持文本质量。但是,以前的无偏水印方法对于本地部署是不切实际的,因为它们依赖于在检测过程中访问白盒 LLM 和输入提示。此外,这些方法未能为水印检测的 II 类误差提供统计保证。原创 2024-10-30 19:43:25 · 76 阅读 · 0 评论 -
A User-Centric Benchmark for Evaluating Large Language Models
大型语言模型 (LLM) 是与用户协作完成不同任务的重要工具。评估它们的性能以满足用户在实际场景中的需求非常重要。虽然已经创建了许多基准测试,但它们主要关注特定的预定义模型能力。很少有人介绍真实用户对 LLM 的预期用途。为了解决这一疏忽,我们建议在数据集构建和评估设计中从用户的角度对 LLM 进行基准测试。我们首先从来自 23 个国家/地区的 712 名参与者的用户研究中收集了 1,846 个真实案例和 15 个 LLM。这形成了用户报告场景 (URS) 数据集,其中包含 7 个用户意图的分类。原创 2024-10-29 16:33:13 · 112 阅读 · 0 评论 -
Empowering Large Language Models for Textual Data Augmentation
凭借理解和执行自然语言指令的能力,大型语言模型 (LLM) 有可能成为文本数据增强的强大工具。但是,增强数据的质量在很大程度上取决于提供的增强指令,并且有效性可能会因不同的下游任务而波动。虽然手动制作和选择指令可以提供一些改进,但由于下游任务的多样性,这种方法在实践中面临可扩展性和一致性问题。在这项工作中,我们通过提出一种新的解决方案来解决这些限制,该解决方案可以自动生成大量增强指令并选择最合适的任务知情指令,从而使 LLM 能够为不同的下游任务创建高质量的增强数据。原创 2024-10-29 16:29:03 · 380 阅读 · 0 评论 -
The GPT Surprise: Offering Large Language Model Chat in a Massive Coding Class Reduced Engagement
大型语言模型 (LLM) 正迅速被广泛应用于各种学习体验中,尤其是通过 ChatGPT 和 Copilot 等无处不在且可广泛访问的聊天界面。这种类型的界面对世界各地的学生和教师来说都很容易获得,但评估此类通用工具对学生学习影响的研究相对较少。编码教育是一个有趣的测试案例,这既是因为 LLM 在编码任务上具有强大的性能,还因为 LLM 支持的支持工具正迅速成为专业软件工程师工作流程的一部分。原创 2024-10-28 11:13:53 · 437 阅读 · 0 评论 -
HELPSTEER2-PREFERENCE: COMPLEMENTING RATINGS WITH PREFERENCES
奖励模型对于使模型符合说明至关重要,通常按照两种流行的范式之一进行训练:Bradley Terry风格或回归风格。然而,缺乏证据表明,当数据充分匹配时,这两种方法都比另一种方法好。这主要是因为这些方法需要以不同(但不兼容)的格式收集数据,这意味着现有的公共数据集中没有足够匹配的数据。为了解决这个问题,我们发布了偏好注释(专为Bradley Terry训练设计),以补充HelpSteer2数据集中的现有评级(专为回归风格训练设计)。为了提高数据的可解释性,偏好注释伴随着人工编写的理由。原创 2024-10-28 10:37:46 · 102 阅读 · 0 评论 -
A Preference-driven Paradigm for Enhanced Translation with Large Language Models
最近的研究表明,大型语言模型 (LLM) 可以通过仅使用少量并行数据的监督微调 (SFT) 实现卓越的翻译性能。但是,SFT 只是指示模型在token级别模仿引用翻译,使其容易受到引用中存在的噪声的影响。因此,一旦 LLM 达到一定程度的翻译能力,SFT 的帮助通常会达到一个平台期,进一步增加并行数据的大小并不会提供额外的好处。为了克服与基于模仿的 SFT 相关的这一平台,我们提出了一种基于 Plackett-Luce 模型的基于偏好的方法。原创 2024-10-27 09:52:13 · 94 阅读 · 0 评论 -
A Multi-Perspective Analysis of Memorization in Large Language Models
记忆,这意味着大型语言模型 (LLM) 可以生成用于训练它们的内容,是 LLM 的特殊行为之一。通过先前研究的研究,很少关注是什么使句子被记住,模型大小如何影响它,以及生成它的动态。在这项研究中,我们从多个角度讨论了记忆,包括缩放模型大小、输入和输出动态以及较少未记忆的内容,并揭示了:(1) 已记住/未记住的句子、模型大小、延续大小和上下文大小之间的相互关联,以及不同记忆分数的句子之间的过渡动态。(2) 生成记忆/未记忆内容时的边界效应及其与模型大小的关系。原创 2024-10-27 09:44:07 · 114 阅读 · 0 评论 -
A Survey of Multimodal Large Language Model from A Data-centric Perspective
多模态大型语言模型 (MLLM) 通过集成和处理来自多种模态(包括文本、视觉、音频、视频和 3D 环境)的数据来增强标准大型语言模型的功能。数据在这些模型的开发和改进中起着关键作用。在这项调查中,我们从以数据为中心的角度全面回顾了有关 MLLM 的文献。具体来说,我们探索了在 MLLM 的预训练和适应阶段准备多模态数据的方法。此外,我们还分析了数据集的评估方法,并回顾了评估 MLLM 的基准。我们的调查还概述了未来潜在的研究方向。原创 2024-10-26 19:23:10 · 101 阅读 · 0 评论 -
A Survey of Generative Search and Recommendation in the Era of Large Language Models
随着 Web 上的信息爆炸式增长,搜索和推荐是满足用户信息需求的基础设施。作为同一枚硬币的两面,两者都围绕着同一个核心研究问题,将查询与文档匹配,或将用户与项目匹配。近几十年来,搜索和推荐经历了同步的技术范式转变,包括基于机器学习和基于深度学习的范式。近年来,超智能生成式大语言模型在搜索和推荐方面引发了一种新的范式,即生成式搜索(检索)和推荐,旨在以生成方式解决匹配问题。在本文中,我们对信息系统中新兴的范式进行了全面调查,并从统一的角度总结了生成式搜索和推荐的发展。原创 2024-10-26 19:15:35 · 122 阅读 · 0 评论 -
Large Language Models in Targeted Sentiment Analysis for Russian
在本文中,我们研究了使用基于解码器的生成Transformer来提取俄罗斯新闻文章中对命名实体的情感。我们研究了指令调整的大型语言模型 (LLM) 的情感分析能力。我们在研究中考虑了 RuSentNE-2023 的数据集。第一组实验旨在评估具有封闭和开放透明胶片的 LLM 的零样本能力。第二个部分涵盖了使用 “链” (CoT) 三跳推理框架 (THoR) 对 Flan-T5 进行微调。我们发现零点方法的结果与基线微调编码器式Transformer(BERTbase) 获得的结果相似。原创 2024-10-25 17:09:44 · 23 阅读 · 0 评论 -
ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline
大型语言模型 (LLM) 已经显示出对人类语言的出色掌握,但在需要解决数学问题的实际应用中仍然举步维艰。虽然已经开发了许多策略和数据集来增强 LLM 的数学能力,但在已部署的 LLM 系统中同时保持和改进语言和数学能力仍然是一个挑战。在这项工作中,我们定制了自我批评流程,解决了 LLM 对齐反馈学习阶段的挑战。我们首先从 LLM 本身训练一个通用的 Math-Critique 模型来提供反馈信号。然后,我们依次对 LLM 自己的生成采用拒绝微调和直接偏好优化进行数据收集。原创 2024-10-25 14:26:23 · 259 阅读 · 0 评论 -
SelfIE: Self-Interpretation of Large Language Model Embeddings
大型语言模型 (LLM) 如何获得答案?解释和控制 LLM 推理过程的能力是可靠性、透明度和未来模型开发的关键。我们提出了 SelfIE (Self-Interpretation of Embeddings),这是一个框架,使 LLM 能够通过利用其能力来回答有关给定段落的查询,从而在自然语言中解释自己的嵌入。SelfIE 能够解释隐藏嵌入中的开放世界概念,在做出道德决定、内化及时注入和召回有害知识等情况下揭示 LLM 内部推理。SelfIE 关于隐藏嵌入的文本描述为控制 LLM 推理开辟了途径。原创 2024-10-24 19:34:38 · 482 阅读 · 0 评论 -
TnT-LLM: Text Mining at Scale with Large Language Models
将非结构化文本转换为结构化且有意义的形式,并按有用的类别标签进行组织,是文本挖掘以进行下游分析和应用的基本步骤。但是,大多数用于生成标签分类法和构建基于文本的标签分类器的现有方法仍然严重依赖领域专业知识和手动管理,这使得该过程既昂贵又耗时。当标签空间未指定且大规模数据注释不可用时,这尤其具有挑战性。在本文中,我们用大型语言模型 (LLM) 来应对这些挑战,其基于提示的界面有助于大规模伪标签的归纳和使用。原创 2024-10-24 15:41:24 · 123 阅读 · 0 评论 -
Are Large Language Models Actually Good at Text Style Transfer?
我们分析了大型语言模型 (LLM) 在文本样式迁移 (TST) 上的性能,特别关注三种语言的情感迁移和文本解毒:英语、印地语和孟加拉语。文本样式迁移涉及修改文本的语言样式,同时保留其核心内容。我们使用零样本和少数样本提示以及对公开可用的数据集进行参数高效微调来评估预训练 LLM 的能力。我们使用自动指标、GPT-4 和人工评估的评估表明,虽然一些提示 LLM 在英语中表现良好,但它们在其他语言(印地语、孟加拉语)上的表现仍然处于平均水平。原创 2024-10-24 15:33:39 · 81 阅读 · 0 评论 -
The Life Cycle of Large Language Models: A Review of Biases in Education
大型语言模型 (LLM) 越来越多地用于教育环境,为学生和教师提供个性化支持。基于 LLM 的应用程序理解和生成自然语言的空前能力可能会提高教学效率和学习成果,但 LLM 与教育技术的整合再次引发了对算法偏见的担忧,这可能会加剧教育不平等。在这篇综述中,基于先前绘制传统机器学习生命周期的工作,我们提供了 LLM 生命周期的整体地图,从 LLM 的初始开发到为教育环境中的各种应用定制预训练模型。我们解释了LLM生命周期中的每一个步骤,并确定了在教育背景下可能出现的潜在偏见来源。原创 2024-10-24 15:30:30 · 109 阅读 · 0 评论 -
WEB AGENTS WITH WORLD MODELS: LEARNING AND LEVERAGING ENVIRONMENT DYNAMICS IN WEB NAVIGATION
大型语言模型(LLM)最近在构建自主代理方面受到了广泛关注。然而,当前基于LLM的web代理在长期任务中的性能远非最佳,经常会产生错误,例如反复购买不可退款的机票。相比之下,人类可以避免这种不可逆转的错误,因为我们意识到自己行为的潜在结果(例如亏损),这也被称为“世界模型”。受此启发,我们的研究首先从初步分析开始,证实了当前LLM中缺乏世界模型(例如GPT-4o、Claude-3.5-Sonnet等)。然后,我们提出了一个世界模型增强(WMA)网络代理,它模拟了其行为的结果,以更好地做出决策。原创 2024-10-23 09:15:00 · 142 阅读 · 0 评论 -
Movie Gen: A Cast of Media Foundation Models
我们介绍Movie Gen,这是一系列基础模型,可以生成具有不同宽高比和同步音频的高质量1080p高清视频。我们还展示了其他功能,例如基于精确指令的视频编辑和基于用户图像的个性化视频生成。我们的模型在多个任务上设定了最新的技术水平:文本到视频合成、视频个性化、视频编辑、视频到音频生成和文本到音频生成。我们最大的视频生成模型是一个30B参数transformer,其最大上下文长度为73K视频token,对应于以每秒16帧的速度生成16秒的视频。原创 2024-10-23 09:00:00 · 112 阅读 · 0 评论 -
Meta-DT: Offline Meta-RL as Conditional Sequence Modeling with World Model Disentanglement
通用人工智能的一个长期目标是高度能干的通才,他们可以从不同的经验中学习,并归纳到看不见的任务中。语言和视觉社区通过扩大在大规模数据集上训练的基于Transformer的模型,在这一趋势上取得了显著进展,而强化学习(RL)代理在这种范式下仍然存在泛化能力差的问题。为了应对这一挑战,我们提出了元决策Transformer(Meta DT),它利用Transformer架构的顺序建模能力和通过世界模型解纠缠进行的鲁棒任务表示学习,在离线元RL中实现了高效的泛化。原创 2024-10-22 10:35:59 · 100 阅读 · 1 评论 -
A COMPARATIVE STUDY ON REASONING PATTERNS OF OPENAI’S O1 MODEL
使大型语言模型(LLM)能够处理更广泛的复杂任务(例如编码、数学)引起了许多研究人员的极大关注。随着LLM的不断发展,增加模型参数的数量会降低性能改进和计算成本。最近,OpenAI的o1模型表明,推理策略(即测试时计算方法)也可以显著增强LLM的推理能力。然而,这些方法背后的机制尚未被探索。在我们的工作中,为了研究o1的推理模式,我们使用OpenAI的GPT-4o作为三个领域(即数学、代码和常识推理)的一般推理基准的骨干,将o1与现有的测试时计算方法(BoN、逐步BoN、代理工作流和自精炼)进行了比较。原创 2024-10-22 09:00:00 · 133 阅读 · 0 评论 -
Adversarial Attacks on Large Language Models in Medicine
将大型语言模型 (LLM) 集成到医疗保健应用程序中,为医疗诊断、治疗建议和患者护理提供了有希望的进步。然而,LLM 对对抗性攻击的敏感性构成了重大威胁,在微妙的医疗环境中可能导致有害结果。本研究调查了 LLM 在三项医疗任务中对两种对抗性攻击的脆弱性。利用真实世界的患者数据,我们证明了开源和专有 LLM 都容易受到跨多个任务的操纵。这项研究进一步揭示了,与一般域任务相比,特定域任务在模型微调中需要更多的对抗数据才能有效执行攻击,尤其是对于功能更强大的模型。原创 2024-10-21 14:40:30 · 120 阅读 · 0 评论 -
Leveraging Large Language Models for Web Scraping
大型语言模型 (LLM) 在复制人工任务和提高生产力方面表现出卓越的能力。然而,由于流利度优先于事实准确性以及处理特定信息的能力有限,它们直接应用于数据提取存在局限性。因此,为了克服这些限制,本研究利用预训练的 LLM 的知识表示能力和 RAG 模型实现的目标信息访问,本研究调查了为语言生成而设计的 RAG 模型的通用准确数据抓取方法。为了以更加模块化和可解释的方式捕获知识,我们使用带有潜在知识检索器的预训练语言模型,这允许模型从大型语料库中检索和处理文档。原创 2024-10-21 14:36:52 · 82 阅读 · 0 评论 -
Analyzing the Role of Semantic Representations in the Era of Large Language Models
传统上,自然语言处理 (NLP) 模型通常使用由语言专业知识创建的一组丰富功能,例如语义表示。然而,在大型语言模型 (LLM) 时代,越来越多的任务变成了通用的端到端序列生成问题。在本文中,我们研究了这个问题:语义表示在 LLM 时代的作用是什么?具体来说,我们研究了抽象意义表示 (AMR) 在五个不同的 NLP 任务中的影响。我们提出了一种 AMR 驱动的思维链提示方法,我们称之为 AMRCOT,发现它通常对性能的伤害大于帮助。为了研究 AMR 在这些任务中可能提供什么,我们进行了一系列分析实验。原创 2024-10-20 11:39:41 · 102 阅读 · 0 评论 -
AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability
多模态大语言模型(MLLMs)被广泛认为是通用人工智能(AGI)研究的关键。MLLM的核心在于其实现跨模态对齐的能力。为了实现这一目标,当前的MLLM通常遵循两个阶段的训练范式:预训练阶段和指令调优阶段。尽管取得了成功,但这些模型中对齐能力的建模仍存在不足。首先,在预训练阶段,模型通常假设所有图像文本对都是一致对齐的,但事实上不同图像文本对之间的对齐程度是不一致的。其次,目前用于微调的指令包含各种任务,不同任务的指令通常需要不同级别的对齐能力,但之前的MLLM忽略了这些差异化的对齐需求。原创 2024-10-20 11:33:47 · 159 阅读 · 0 评论 -
Adapting Open-Source Large Language Models for Cost-Effective, Expert-Level Clinical Note
GPT-4 和 Gemini 等专有大型语言模型 (LLM) 在临床文本摘要任务中表现出有前途的能力。但是,出于患者数据隐私和计算成本的考虑,许多医疗保健提供商更喜欢使用小型的本地托管模型,而不是外部通用 LLM。本研究为开源 LLaMA-2 130 亿参数模型提出了一个全面的领域和任务特定适应过程,使其能够从门诊医患对话中生成高质量的临床记录。我们的流程包括持续的预训练、监督式微调以及来自 AI 和人类反馈的强化学习。原创 2024-10-19 19:54:37 · 90 阅读 · 0 评论 -
A review on the use of large language models as virtual tutors
Transformer 架构有助于管理自然语言处理的长期依赖关系,这是该领域的最新变化之一。这些架构是创新、尖端的大型语言模型 (llm) 的基础,这些模型在多个领域和工业领域引起了巨大的轰动,其中教育领域尤为突出。因此,这些基于生成式人工智能的解决方案将技术的变化和教育方法和内容以及网络基础设施的演变引导到高质量的学习。鉴于 LLMS 的普及,本综述旨在全面概述那些专门为生成和评估教育材料而设计的解决方案,这些解决方案让学生和教师参与他们的设计或实验计划。原创 2024-10-19 19:49:07 · 120 阅读 · 0 评论 -
Survey on Reasoning Capabilities and Accessibility of Large Language Models Using Biology-related
本研究论文讨论了过去十年在生物医学和大型语言模型方面取得的进展。为了了解这些进步是如何相互携手的,本文还讨论了自然语言处理技术和工具与生物医学的整合。最后,该论文的目标是通过为前两种语言模型引入新的问题和提示列表,来扩展去年(2023 年)进行的一项调查。通过这项调查,本文试图量化 LLM 推理能力的改进,以及普通用户对这些改进的感受程度。此外,本文旨在通过促使 LLM 深入回答开放式问题来扩展对生物文献检索的研究。原创 2024-10-18 09:45:00 · 97 阅读 · 0 评论 -
Let’s Verify Step by Step
近年来,大型语言模型在执行复杂多步推理的能力方面有了很大提高。然而,即使是最先进的模型也经常出现逻辑错误。为了训练更可靠的模型,我们可以转向结果监督,为最终结果提供反馈,也可以转向过程监督,为每个中间推理步骤提供反馈。鉴于训练可靠模型的重要性,以及人工反馈的高昂成本,仔细比较这两种方法非常重要。最近的工作已经开始进行这种比较,但许多问题仍然存在。我们进行了自己的调查,发现过程监督在训练模型解决具有挑战性的MATH数据集中的问题方面明显优于结果监督。原创 2024-10-18 09:00:00 · 331 阅读 · 0 评论 -
OmniGenBench: Automating Large-scale in-silico Benchmarking for Genomic Foundation Models
近年来人工智能的进步,如大型语言模型(LLMs),激发了人们对基因组基础模型(GFMs)突破的期望。自生命进化之初就隐藏在各种基因组中的自然密码,通过基因组建模对人类和生态系统的影响具有巨大的潜力。最近在GFM方面的突破,如Evo,吸引了对基因组建模的大量投资和关注,因为它们解决了长期存在的挑战,并将计算机基因组研究转化为自动化、可靠和高效的范式。在基因组学连续技术革命的繁荣时代,GFM研究面临两大挑战:缺乏GFM基准工具和缺乏用于多种基因组学的开源软件。原创 2024-10-17 09:30:00 · 187 阅读 · 0 评论