自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1710)
  • 资源 (1)
  • 收藏
  • 关注

原创 A Preference-driven Paradigm for Enhanced Translation with Large Language Models

最近的研究表明,大型语言模型 (LLM) 可以通过仅使用少量并行数据的监督微调 (SFT) 实现卓越的翻译性能。但是,SFT 只是指示模型在token级别模仿引用翻译,使其容易受到引用中存在的噪声的影响。因此,一旦 LLM 达到一定程度的翻译能力,SFT 的帮助通常会达到一个平台期,进一步增加并行数据的大小并不会提供额外的好处。为了克服与基于模仿的 SFT 相关的这一平台,我们提出了一种基于 Plackett-Luce 模型的基于偏好的方法。

2024-10-27 09:52:13 100

原创 A Multi-Perspective Analysis of Memorization in Large Language Models

记忆,这意味着大型语言模型 (LLM) 可以生成用于训练它们的内容,是 LLM 的特殊行为之一。通过先前研究的研究,很少关注是什么使句子被记住,模型大小如何影响它,以及生成它的动态。在这项研究中,我们从多个角度讨论了记忆,包括缩放模型大小、输入和输出动态以及较少未记忆的内容,并揭示了:(1) 已记住/未记住的句子、模型大小、延续大小和上下文大小之间的相互关联,以及不同记忆分数的句子之间的过渡动态。(2) 生成记忆/未记忆内容时的边界效应及其与模型大小的关系。

2024-10-27 09:44:07 118

原创 A Survey of Multimodal Large Language Model from A Data-centric Perspective

多模态大型语言模型 (MLLM) 通过集成和处理来自多种模态(包括文本、视觉、音频、视频和 3D 环境)的数据来增强标准大型语言模型的功能。数据在这些模型的开发和改进中起着关键作用。在这项调查中,我们从以数据为中心的角度全面回顾了有关 MLLM 的文献。具体来说,我们探索了在 MLLM 的预训练和适应阶段准备多模态数据的方法。此外,我们还分析了数据集的评估方法,并回顾了评估 MLLM 的基准。我们的调查还概述了未来潜在的研究方向。

2024-10-26 19:23:10 104

原创 A Survey of Generative Search and Recommendation in the Era of Large Language Models

随着 Web 上的信息爆炸式增长,搜索和推荐是满足用户信息需求的基础设施。作为同一枚硬币的两面,两者都围绕着同一个核心研究问题,将查询与文档匹配,或将用户与项目匹配。近几十年来,搜索和推荐经历了同步的技术范式转变,包括基于机器学习和基于深度学习的范式。近年来,超智能生成式大语言模型在搜索和推荐方面引发了一种新的范式,即生成式搜索(检索)和推荐,旨在以生成方式解决匹配问题。在本文中,我们对信息系统中新兴的范式进行了全面调查,并从统一的角度总结了生成式搜索和推荐的发展。

2024-10-26 19:15:35 123

原创 Large Language Models in Targeted Sentiment Analysis for Russian

在本文中,我们研究了使用基于解码器的生成Transformer来提取俄罗斯新闻文章中对命名实体的情感。我们研究了指令调整的大型语言模型 (LLM) 的情感分析能力。我们在研究中考虑了 RuSentNE-2023 的数据集。第一组实验旨在评估具有封闭和开放透明胶片的 LLM 的零样本能力。第二个部分涵盖了使用 “链” (CoT) 三跳推理框架 (THoR) 对 Flan-T5 进行微调。我们发现零点方法的结果与基线微调编码器式Transformer(BERTbase) 获得的结果相似。

2024-10-25 17:09:44 27

原创 ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline

大型语言模型 (LLM) 已经显示出对人类语言的出色掌握,但在需要解决数学问题的实际应用中仍然举步维艰。虽然已经开发了许多策略和数据集来增强 LLM 的数学能力,但在已部署的 LLM 系统中同时保持和改进语言和数学能力仍然是一个挑战。在这项工作中,我们定制了自我批评流程,解决了 LLM 对齐反馈学习阶段的挑战。我们首先从 LLM 本身训练一个通用的 Math-Critique 模型来提供反馈信号。然后,我们依次对 LLM 自己的生成采用拒绝微调和直接偏好优化进行数据收集。

2024-10-25 14:26:23 262

原创 SelfIE: Self-Interpretation of Large Language Model Embeddings

大型语言模型 (LLM) 如何获得答案?解释和控制 LLM 推理过程的能力是可靠性、透明度和未来模型开发的关键。我们提出了 SelfIE (Self-Interpretation of Embeddings),这是一个框架,使 LLM 能够通过利用其能力来回答有关给定段落的查询,从而在自然语言中解释自己的嵌入。SelfIE 能够解释隐藏嵌入中的开放世界概念,在做出道德决定、内化及时注入和召回有害知识等情况下揭示 LLM 内部推理。SelfIE 关于隐藏嵌入的文本描述为控制 LLM 推理开辟了途径。

2024-10-24 19:34:38 485

原创 TnT-LLM: Text Mining at Scale with Large Language Models

将非结构化文本转换为结构化且有意义的形式,并按有用的类别标签进行组织,是文本挖掘以进行下游分析和应用的基本步骤。但是,大多数用于生成标签分类法和构建基于文本的标签分类器的现有方法仍然严重依赖领域专业知识和手动管理,这使得该过程既昂贵又耗时。当标签空间未指定且大规模数据注释不可用时,这尤其具有挑战性。在本文中,我们用大型语言模型 (LLM) 来应对这些挑战,其基于提示的界面有助于大规模伪标签的归纳和使用。

2024-10-24 15:41:24 130

原创 Are Large Language Models Actually Good at Text Style Transfer?

我们分析了大型语言模型 (LLM) 在文本样式迁移 (TST) 上的性能,特别关注三种语言的情感迁移和文本解毒:英语、印地语和孟加拉语。文本样式迁移涉及修改文本的语言样式,同时保留其核心内容。我们使用零样本和少数样本提示以及对公开可用的数据集进行参数高效微调来评估预训练 LLM 的能力。我们使用自动指标、GPT-4 和人工评估的评估表明,虽然一些提示 LLM 在英语中表现良好,但它们在其他语言(印地语、孟加拉语)上的表现仍然处于平均水平。

2024-10-24 15:33:39 82

原创 The Life Cycle of Large Language Models: A Review of Biases in Education

大型语言模型 (LLM) 越来越多地用于教育环境,为学生和教师提供个性化支持。基于 LLM 的应用程序理解和生成自然语言的空前能力可能会提高教学效率和学习成果,但 LLM 与教育技术的整合再次引发了对算法偏见的担忧,这可能会加剧教育不平等。在这篇综述中,基于先前绘制传统机器学习生命周期的工作,我们提供了 LLM 生命周期的整体地图,从 LLM 的初始开发到为教育环境中的各种应用定制预训练模型。我们解释了LLM生命周期中的每一个步骤,并确定了在教育背景下可能出现的潜在偏见来源。

2024-10-24 15:30:30 111

原创 WEB AGENTS WITH WORLD MODELS: LEARNING AND LEVERAGING ENVIRONMENT DYNAMICS IN WEB NAVIGATION

大型语言模型(LLM)最近在构建自主代理方面受到了广泛关注。然而,当前基于LLM的web代理在长期任务中的性能远非最佳,经常会产生错误,例如反复购买不可退款的机票。相比之下,人类可以避免这种不可逆转的错误,因为我们意识到自己行为的潜在结果(例如亏损),这也被称为“世界模型”。受此启发,我们的研究首先从初步分析开始,证实了当前LLM中缺乏世界模型(例如GPT-4o、Claude-3.5-Sonnet等)。然后,我们提出了一个世界模型增强(WMA)网络代理,它模拟了其行为的结果,以更好地做出决策。

2024-10-23 09:15:00 145

原创 Movie Gen: A Cast of Media Foundation Models

我们介绍Movie Gen,这是一系列基础模型,可以生成具有不同宽高比和同步音频的高质量1080p高清视频。我们还展示了其他功能,例如基于精确指令的视频编辑和基于用户图像的个性化视频生成。我们的模型在多个任务上设定了最新的技术水平:文本到视频合成、视频个性化、视频编辑、视频到音频生成和文本到音频生成。我们最大的视频生成模型是一个30B参数transformer,其最大上下文长度为73K视频token,对应于以每秒16帧的速度生成16秒的视频。

2024-10-23 09:00:00 122

原创 Meta-DT: Offline Meta-RL as Conditional Sequence Modeling with World Model Disentanglement

通用人工智能的一个长期目标是高度能干的通才,他们可以从不同的经验中学习,并归纳到看不见的任务中。语言和视觉社区通过扩大在大规模数据集上训练的基于Transformer的模型,在这一趋势上取得了显著进展,而强化学习(RL)代理在这种范式下仍然存在泛化能力差的问题。为了应对这一挑战,我们提出了元决策Transformer(Meta DT),它利用Transformer架构的顺序建模能力和通过世界模型解纠缠进行的鲁棒任务表示学习,在离线元RL中实现了高效的泛化。

2024-10-22 10:35:59 102 1

原创 A COMPARATIVE STUDY ON REASONING PATTERNS OF OPENAI’S O1 MODEL

使大型语言模型(LLM)能够处理更广泛的复杂任务(例如编码、数学)引起了许多研究人员的极大关注。随着LLM的不断发展,增加模型参数的数量会降低性能改进和计算成本。最近,OpenAI的o1模型表明,推理策略(即测试时计算方法)也可以显著增强LLM的推理能力。然而,这些方法背后的机制尚未被探索。在我们的工作中,为了研究o1的推理模式,我们使用OpenAI的GPT-4o作为三个领域(即数学、代码和常识推理)的一般推理基准的骨干,将o1与现有的测试时计算方法(BoN、逐步BoN、代理工作流和自精炼)进行了比较。

2024-10-22 09:00:00 136

原创 Adversarial Attacks on Large Language Models in Medicine

将大型语言模型 (LLM) 集成到医疗保健应用程序中,为医疗诊断、治疗建议和患者护理提供了有希望的进步。然而,LLM 对对抗性攻击的敏感性构成了重大威胁,在微妙的医疗环境中可能导致有害结果。本研究调查了 LLM 在三项医疗任务中对两种对抗性攻击的脆弱性。利用真实世界的患者数据,我们证明了开源和专有 LLM 都容易受到跨多个任务的操纵。这项研究进一步揭示了,与一般域任务相比,特定域任务在模型微调中需要更多的对抗数据才能有效执行攻击,尤其是对于功能更强大的模型。

2024-10-21 14:40:30 121

原创 Leveraging Large Language Models for Web Scraping

大型语言模型 (LLM) 在复制人工任务和提高生产力方面表现出卓越的能力。然而,由于流利度优先于事实准确性以及处理特定信息的能力有限,它们直接应用于数据提取存在局限性。因此,为了克服这些限制,本研究利用预训练的 LLM 的知识表示能力和 RAG 模型实现的目标信息访问,本研究调查了为语言生成而设计的 RAG 模型的通用准确数据抓取方法。为了以更加模块化和可解释的方式捕获知识,我们使用带有潜在知识检索器的预训练语言模型,这允许模型从大型语料库中检索和处理文档。

2024-10-21 14:36:52 87

原创 Analyzing the Role of Semantic Representations in the Era of Large Language Models

传统上,自然语言处理 (NLP) 模型通常使用由语言专业知识创建的一组丰富功能,例如语义表示。然而,在大型语言模型 (LLM) 时代,越来越多的任务变成了通用的端到端序列生成问题。在本文中,我们研究了这个问题:语义表示在 LLM 时代的作用是什么?具体来说,我们研究了抽象意义表示 (AMR) 在五个不同的 NLP 任务中的影响。我们提出了一种 AMR 驱动的思维链提示方法,我们称之为 AMRCOT,发现它通常对性能的伤害大于帮助。为了研究 AMR 在这些任务中可能提供什么,我们进行了一系列分析实验。

2024-10-20 11:39:41 107

原创 AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability

多模态大语言模型(MLLMs)被广泛认为是通用人工智能(AGI)研究的关键。MLLM的核心在于其实现跨模态对齐的能力。为了实现这一目标,当前的MLLM通常遵循两个阶段的训练范式:预训练阶段和指令调优阶段。尽管取得了成功,但这些模型中对齐能力的建模仍存在不足。首先,在预训练阶段,模型通常假设所有图像文本对都是一致对齐的,但事实上不同图像文本对之间的对齐程度是不一致的。其次,目前用于微调的指令包含各种任务,不同任务的指令通常需要不同级别的对齐能力,但之前的MLLM忽略了这些差异化的对齐需求。

2024-10-20 11:33:47 167

原创 Adapting Open-Source Large Language Models for Cost-Effective, Expert-Level Clinical Note

GPT-4 和 Gemini 等专有大型语言模型 (LLM) 在临床文本摘要任务中表现出有前途的能力。但是,出于患者数据隐私和计算成本的考虑,许多医疗保健提供商更喜欢使用小型的本地托管模型,而不是外部通用 LLM。本研究为开源 LLaMA-2 130 亿参数模型提出了一个全面的领域和任务特定适应过程,使其能够从门诊医患对话中生成高质量的临床记录。我们的流程包括持续的预训练、监督式微调以及来自 AI 和人类反馈的强化学习。

2024-10-19 19:54:37 95

原创 A review on the use of large language models as virtual tutors

Transformer 架构有助于管理自然语言处理的长期依赖关系,这是该领域的最新变化之一。这些架构是创新、尖端的大型语言模型 (llm) 的基础,这些模型在多个领域和工业领域引起了巨大的轰动,其中教育领域尤为突出。因此,这些基于生成式人工智能的解决方案将技术的变化和教育方法和内容以及网络基础设施的演变引导到高质量的学习。鉴于 LLMS 的普及,本综述旨在全面概述那些专门为生成和评估教育材料而设计的解决方案,这些解决方案让学生和教师参与他们的设计或实验计划。

2024-10-19 19:49:07 123

原创 Survey on Reasoning Capabilities and Accessibility of Large Language Models Using Biology-related

本研究论文讨论了过去十年在生物医学和大型语言模型方面取得的进展。为了了解这些进步是如何相互携手的,本文还讨论了自然语言处理技术和工具与生物医学的整合。最后,该论文的目标是通过为前两种语言模型引入新的问题和提示列表,来扩展去年(2023 年)进行的一项调查。通过这项调查,本文试图量化 LLM 推理能力的改进,以及普通用户对这些改进的感受程度。此外,本文旨在通过促使 LLM 深入回答开放式问题来扩展对生物文献检索的研究。

2024-10-18 09:45:00 98

原创 Let’s Verify Step by Step

近年来,大型语言模型在执行复杂多步推理的能力方面有了很大提高。然而,即使是最先进的模型也经常出现逻辑错误。为了训练更可靠的模型,我们可以转向结果监督,为最终结果提供反馈,也可以转向过程监督,为每个中间推理步骤提供反馈。鉴于训练可靠模型的重要性,以及人工反馈的高昂成本,仔细比较这两种方法非常重要。最近的工作已经开始进行这种比较,但许多问题仍然存在。我们进行了自己的调查,发现过程监督在训练模型解决具有挑战性的MATH数据集中的问题方面明显优于结果监督。

2024-10-18 09:00:00 337

原创 OmniGenBench: Automating Large-scale in-silico Benchmarking for Genomic Foundation Models

近年来人工智能的进步,如大型语言模型(LLMs),激发了人们对基因组基础模型(GFMs)突破的期望。自生命进化之初就隐藏在各种基因组中的自然密码,通过基因组建模对人类和生态系统的影响具有巨大的潜力。最近在GFM方面的突破,如Evo,吸引了对基因组建模的大量投资和关注,因为它们解决了长期存在的挑战,并将计算机基因组研究转化为自动化、可靠和高效的范式。在基因组学连续技术革命的繁荣时代,GFM研究面临两大挑战:缺乏GFM基准工具和缺乏用于多种基因组学的开源软件。

2024-10-17 09:30:00 191

原创 When a language model is optimized for reasoning, does it still show embers of autoregression?

在“自回归余烬”中,我们发现,几种大型语言模型(LLM)有一些重要的局限性,这是由于它们起源于下一个单词预测。在这里,我们研究了o1是否存在这些问题,o1是OpenAI的一个新系统,与之前的LLM不同,它针对推理进行了优化。我们发现,在许多情况下,o1的表现明显优于之前的LLM,在常见任务的罕见变体上有了特别大的改进(例如,从列表中每个单词的第二个字母而不是第一个字母组成首字母缩略词)。然而,尽管有这些定量改进,o1仍然显示出我们在以前的系统中观察到的相同的定性趋势。

2024-10-17 09:00:00 137

原创 LLMS KNOW MORE THAN THEY SHOW: ON THE INTRINSIC REPRESENTATION OF LLM HALLUCINATIONS

大型语言模型(LLM)经常产生错误,包括事实不准确、偏见和推理失败,统称为“幻觉”。最近的研究表明,LLM的内部状态编码了有关其输出真实性的信息,并且这些信息可用于检测错误。在这项工作中,我们表明LLM的内部表示编码了比以前认识到的更多的关于真实性的信息。我们首先发现,真实性信息集中在特定的token中,利用这一特性可以显著提高错误检测性能。然而,我们发现,这种错误检测器无法跨数据集进行泛化,这意味着——与之前的说法相反——真实性编码不是通用的,而是多方面的。

2024-10-16 15:22:17 121

原创 DIFFERENTIAL TRANSFORMER

Transformer倾向于将注意力过度分配到无关的上下文中。在这项工作中,我们引入了DIFF Transformer,它在消除噪声的同时增强了对相关上下文的关注。具体而言,差分注意力机制将注意力得分计算为两个单独的softmax注意力图之间的差值。减法消除了噪声,促进了稀疏注意力模式的出现。语言建模的实验结果表明,DIFF-Transformer在各种扩大模型大小和训练token的设置下都优于Transformer。

2024-10-16 15:04:20 396

原创 Answering real-world clinical questions using large language model based systems

由于缺乏相关和值得信赖的文献,以及难以将针对特定患者的现有研究置于背景中,指导医疗保健决策的证据往往受到限制。大型语言模型 (LLM) 可以通过总结已发表的文献或根据真实世界数据 (RWD) 生成新研究来潜在地解决这两个挑战。我们评估了 5 个基于 LLM 的系统回答 50 个临床问题的能力,并让 9 名独立医生审查了回答的相关性、可靠性和可操作性。

2024-10-15 14:09:33 101

原创 Evaluation of OpenAI o1: Opportunities and Challenges of AGI

这项全面的研究评估了 OpenAI 的 o1-preview 大型语言模型在各种复杂推理任务中的性能,这些任务跨越多个领域,包括计算机科学、数学、自然科学、医学、语言学和社会科学。通过严格的测试,o1-preview 展示了卓越的能力,从编码挑战到科学推理,从语言处理到创造性问题解决,通常都能达到人类水平或卓越的性能。解决复杂的竞争性编程问题的成功率为 83.3%,超过了许多人类专家。生成连贯准确的放射学报告的能力,优于其他评估模型。高中水平数学推理任务准确率 100%,提供详细的分步解答。

2024-10-15 09:00:00 182

原创 Autonomous Prompt Engineering in Large Language Models

提示工程是一项关键但具有挑战性的任务,用于优化大型语言模型 (LLM) 在自定义任务上的性能。这项开创性研究引入了自动提示工程工具箱 (APET),它使 GPT-41 能够自主应用提示工程技术。通过利用专家提示、思维链和思维树等复杂策略,APET 使 GPT-4 能够动态优化提示,从而在单词排序(增长 4.4%)和几何形状(增长 6.8%)等任务中取得重大改进。

2024-10-14 14:04:55 119

原创 Levels of AI Agents: from Rules to Large Language Models

AI 代理被定义为用于感知环境、做出决策和采取行动的人工实体。受 SAE(汽车工程师协会)自动驾驶 6 个级别的启发,AI 代理也根据效用和强度进行分类,分为以下级别:L0 — 无 AI,有工具(有感知)加动作;L1 使用基于规则的 AI;L2—让基于规则的AI被基于IL/RL的AI取代,具有额外的推理和决策能力;L3—应用基于LLM的AI而不是基于IL/RL的AI,额外设置内存和反射;L4——基于 L3,促进自主学习和泛化;L5 — 基于 L4,附加个性(情感 + 性格)和协作行为(多智能体)。

2024-10-14 11:05:03 122

原创 Assessing Political Bias in Large Language Models

在人工智能 (AI) 对社会动态的潜在影响的背景下,对大型语言模型 (LLM) 中偏见的评估已成为当代话语中的关键问题。在接近性能预测的转折点时,识别和考虑 LLM 应用程序中的政治偏见尤为重要。然后,接受有关潜在影响和社会行为的教育 LLM 由于与人类操作员的相互作用而可以大规模驱动。这样,即将到来的欧洲议会选举就不会不受 LLM 的影响。我们从德国选民的角度评估了当前最流行的开源 LLM(指导或辅助模型)对欧盟 (EU) 内部政治问题的政治偏见。

2024-10-13 12:04:09 31

原创 Assessing Adversarial Robustness of Large Language Models: An Empirical Study

大型语言模型 (LLM) 彻底改变了自然语言处理,但它们对对抗性攻击的稳健性仍然是一个关键问题。我们提出了一种新颖的白盒式攻击方法,该方法暴露了领先的开源 LLM(包括 Llama、OPT 和 T5)中的漏洞。我们评估了模型大小、结构和微调策略对它们对对抗性扰动的抵抗力的影响。我们对五种不同的文本分类任务进行了全面评估,为 LLM 稳健性建立了新的基准。本研究的结果对 LLM 在实际应用中的可靠部署具有深远的影响,并有助于推动值得信赖的 AI 系统的发展。

2024-10-13 12:01:17 115

原创 Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach

检索增强生成(RAG)已成为大型语言模型(LLM)高效处理过长上下文的强大工具。然而,最近的LLM,如Gemini1.5和GPT-4,显示出直接理解长上下文的卓越能力。我们对RAG和长上下文(LC)LLM进行了全面比较,旨在利用两者的优势。我们使用三种最新的LLM在各种公共数据集中对RAG和LC进行基准测试。结果表明,当资源充足时,LC在平均性能方面始终优于RAG。然而,RAG显著降低的成本仍然是一个明显的优势。

2024-10-12 10:00:00 128

原创 ChemEval: A Comprehensive Multi-Level Chemical Evalution for Large Language Models

人们对LLM在化学中的作用越来越感兴趣,这导致人们越来越关注针对化学领域量身定制的LLM基准的开发,以评估LLM在不同类型和复杂性的化学任务中的性能。然而,该领域的现有基准未能充分满足化学研究专业人员的具体要求。为此,我们提出了ChemEval,它对LLM在各种化学领域任务中的能力进行了全面评估。具体而言,ChemEval确定了化学中的4个关键渐进水平,评估了42个不同化学任务中LLM的12个维度,这些任务由开源数据和化学专家精心制作的数据提供信息,确保这些任务具有实用价值,能够有效地评估LLM的能力。

2024-10-12 09:00:00 150

原创 Adaptive Reinforcement Learning Planning: Harnessing Large Language Models for Complex Informatio

对大型语言模型 (LLM) 的现有研究表明,它们可以通过多步骤规划来解决信息提取任务。但是,它们在复杂句子和任务上的提取行为不稳定,出现了误报和缺失元素等问题。我们观察到,分解复杂的提取任务并逐步提取它们可以有效地提高 LLM 的性能,并且实体的提取顺序会显着影响 LLM 的最终结果。本文提出了一种基于 LLM 的信息提取的两阶段多步骤方法,并采用 RL 框架执行多步骤规划。

2024-10-11 14:32:37 110

原创 TEST-TIME TRAINING ON NEAREST NEIGHBORS FOR LARGE LANGUAGE MODELS

最近的许多工作通过将检索到的数据添加到输入上下文来增强语言模型的检索功能。要使此方法成功,必须在训练和测试时添加检索到的数据。此外,随着输入长度随检索数据的大小线性增长,现代 Transformer 的计算和内存成本呈二次方增长。为了避免这些复杂性,我们只需在测试时使用其标准训练设置,根据检索到的数据对模型进行微调。我们基于 Pile 数据集的文本嵌入构建了一个大规模分布式索引。对于每个测试输入,我们的系统会检索其邻居并根据其文本微调模型。

2024-10-11 09:00:00 126

原创 PatentGPT: A Large Language Model for Patent Drafting Using Knowledgebased Fine-tuning Method

随着人类站在技术创新新时代的边缘,将创意迅速转化为受保护的知识产权(IP)的能力比以往任何时候都更加重要。然而,传统的专利起草流程充满了挑战,要求对先进的领域知识和技术概念有细致入微的理解。现有的大型语言模型(LLM)虽然功能强大,但由于缺乏生成技术上准确的专利文件所需的专业知识和上下文意识,在这个知识产权创建领域往往不足。为了弥合这一关键差距,我们提出了一个开创性的LLM知识微调(KFT)框架,旨在赋予人工智能自主挖掘、理解和应用特定领域知识的能力。

2024-10-10 09:45:00 143

原创 Vision-Language and Large Language Model Performance in Gastroenterology: GPT, Claude, Llama, Phi

背景和目的:本研究评估了胃肠病学中大型语言模型(LLMs)和视觉语言模型(VLMs)的医学推理性能。方法:我们使用了300个胃肠病学委员会考试式的多项选择题,其中138个包含图像,以系统地评估模型配置和参数的影响,并利用GPT-3.5提示工程策略。

2024-10-10 09:00:00 171

原创 A Universal Prompting Strategy for Extracting Process Model Information from Natural Language Text

在过去的十年中,人们致力于从文本过程描述中提取信息。尽管自然语言处理 (NLP) 取得了显著进步,但业务流程管理领域内的信息提取仍然主要依赖于基于规则的系统和机器学习方法。到目前为止,数据稀缺阻碍了深度学习技术的成功应用。然而,生成式大型语言模型 (LLM) 的快速发展使得无需大量数据即可以非常高的质量解决许多 NLP 任务成为可能。因此,我们系统地研究了 LLM 从文本过程描述中提取信息的潜力,旨在检测过程元素,例如活动和参与者,以及它们之间的关系。

2024-10-09 10:33:56 151

原创 A Taxonomy for Data Contamination in Large Language Models

在广泛的 Web 语料库上预训练的大型语言模型在各种下游任务中表现出卓越的性能。然而,人们越来越担心数据污染,其中评估数据集可能包含在预训练语料库中,从而夸大了模型性能。去污,即检测和删除此类数据的过程,是一种潜在的解决方案;然而,这些污染物可能来自测试集的更改版本,在净化过程中逃避检测。不同类型的污染如何影响语言模型在下游任务上的性能尚不完全清楚。我们提出了一个分类法,对 LLM 在预训练阶段遇到的各种类型的污染进行分类,并确定哪些类型构成最高风险。

2024-10-09 10:11:38 470

C语言编程实例100题

里面有C语言程序示例,没有100个,但是个个讲的都很好,对于初学者帮助很大。。

2012-03-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除