大语言模型
文章平均质量分 80
大语言模型相关的训练技巧、部署推理、评估推理
hanscalZheng
关注NLP领域,专注QA和对话以及知识图谱。
展开
-
大模型与机器人精彩碰撞-7月5日晚上八点不见不散!
在瞬息万变的科技时代,新兴人工智能和机器人技术的结合正在引领新一轮的创新浪潮。你是否想成为未来科技的领航者?行麦科技重磅推出的“AIGC时代的生存法则”AI系列课,将为你揭开大模型与机器人技术的神秘面纱,带你踏上探索未来的旅程!我们邀请到了世界顶尖高校工学博士Z老师,他现在为国内重点高校教师,曾担任欧洲重点大学教师,他在机器人及人工智能领域有着深厚的学术造诣和丰富的教学经验。扫描海报中的二维码,立即报名,让我们一起探索AIGC时代的生存法则,迎接智能科技带来的无限可能!:全面了解机器人技术的最新发展。原创 2024-07-03 23:07:48 · 278 阅读 · 0 评论 -
让围绕数据库构建大模型应用更简单方便--DB-GPT
DB-GPT是一个智能且生产就绪的项目,旨在通过增强型大型语言模型(LLMs)来改善数据摄取、结构化和访问,同时采用隐私化技术。其不仅利用了LLMs固有的自然语言理解和生成能力,还通过代理和插件机制不断优化数据驱动引擎。论文:https://arxiv.org/pdf/2312.17449.pdf代码:https://github.com/eosphoros-ai/DB-GPTPS: 欢迎大家扫码关注公众号,我们一起在AI的世界中探索前行,期待共同进步!原创 2024-07-03 00:39:32 · 304 阅读 · 0 评论 -
基于RAG的多源检索问答框架--MSRAG
MSRAG多源检索框架,通过结合GPT-3.5的语料库知识和网络检索的实时信息,显著提升了问答系统的性能,尤其是在处理需要多步推理和细粒度知识检索的复杂问题时。论文题目:A Multi-Source Retrieval QuestionAnsweringFramework Based on RAG论文链接:https://arxiv.org/pdf/2405.19207PS: 欢迎大家扫码关注公众号,我们一起在AI的世界中探索前行,期待共同进步!原创 2024-07-02 23:48:00 · 338 阅读 · 0 评论 -
离散模态信息作为细粒度标记用于多模态知识图谱补全--MyGO
在公共基准数据集上进行全面实验,MyGO在MMKGC任务中超过了20个最新基线方法,达到了新的最先进性能。论文题目:MyGO: Discrete Modality Information as Fine-Grained Tokens for论文链接:https://arxiv.org/pdf/2404.09468PS: 欢迎大家扫码关注公众号,我们一起在AI的世界中探索前行,期待共同进步!原创 2024-07-02 00:15:35 · 391 阅读 · 0 评论 -
大型语言模型的长期记忆能力--HippoRAG
HippoRAG作为一种新型的LLM长期记忆框架,通过模仿人类大脑的记忆机制,展示了在多跳问答任务中的潜力。论文题目:HippoRAG: Neurobiologically Inspired Long-Term Memory for Large Language Models论文链接:https://arxiv.org/pdf/2405.14831PS: 欢迎大家扫码关注公众号,我们一起在AI的世界中探索前行,期待共同进步!原创 2024-07-02 00:08:33 · 408 阅读 · 0 评论 -
GraphRAG的设计模式、挑战和改进思路
通过探讨Graph RAG未来的优化与演进方向,总结了内容索引和检索生成阶段的不同改进思路,以及RAG向Agent架构的演化趋势。论文题目:GraphRAG: Design Patterns, Challenges, Recommendations论文链接:https://gradientflow.com/graphrag-design-patterns-challenges-recommendations/PS: 欢迎大家扫码关注公众号,我们一起在AI的世界中探索前行,期待共同进步!原创 2024-06-30 23:54:40 · 636 阅读 · 0 评论 -
可信和可解释的大语言模型推理-RoG
RoG通过将LLMs与KGs相结合,提出了一种新颖的规划-检索-推理框架,显著提高了LLMs的推理能力和可解释性,并在实验中展示了其在处理高风险场景(如法律判决和医疗诊断)中的潜力,通过提供最新的知识和避免推理过程中的幻觉,RoG提高了LLMs在这些场景中的性能和可信度。论文题目:Reasoning on Graphs: Faithful and Interpretable Large Language Model Reasonin。原创 2024-06-30 22:41:22 · 432 阅读 · 0 评论 -
传统RAG存在的问题以及解决方法
传统的RAG技术逐渐开始与提示词工程(Prompt Engineering)、模型微调(Fine Tuning)、知识图谱(Knowledge Graph)和智能体(Agent)等技术结合,构成更广义的RAG问答链路框架。PS: 欢迎大家扫码关注公众号,我们一起在AI的世界中探索前行,期待共同进步!原创 2024-06-28 23:44:33 · 347 阅读 · 0 评论 -
基于多模态知识图谱的多模态推理-MR-MKG
MR-MKG方法通过利用MMKG中的丰富知识(图像、文本和知识三元组),显著增强了LLMs的多模态推理能力,展示了其在多模态问答和类比推理任务上的有效性和优势。论文题目:Multimodal Reasoning with Multimodal Knowledge Graph论文链接:https://arxiv.org/abs/2406.02030PS: 欢迎大家扫码关注公众号,我们一起在AI的世界中探索前行,期待共同进步!原创 2024-06-28 23:04:16 · 455 阅读 · 0 评论 -
LLM文本数据集775TB:覆盖32个领域,444个数据集
除了上面提到的这些数据集,还包括多模态大型语言模型 (MLLM) 数据集和检索增强生成 (RAG) 数据集。数据集:https://github.com/lmmlzn/Awesome-LLMs-Datasets论文链接:https://arxiv.org/abs/2402.18041PS: 欢迎大家扫码关注公众号,我们一起在AI的世界中探索前行,期待共同进步!原创 2024-06-26 22:04:30 · 349 阅读 · 0 评论 -
基于网络搜索的长篇问答能力优化:FoRAG
应用FoRAG方法优调 Llama2-7B-chat 后,得到的 FoRAG-L-7B 模型在连贯性、有用性和事实性三个指标上超越了 WebGPT-175B,且参数数量仅为后者的 1/24。轮廓增强生成器显著提高了答案的连贯性和有用性,而双重细粒度RLHF框架则显著提高了答案在事实性方面的表现。PS: 欢迎大家扫码关注公众号,我们一起在AI的世界中探索前行,期待共同进步!原创 2024-06-23 00:36:14 · 330 阅读 · 0 评论 -
让LLMs在结构化数据上推理-StructGPT
StructGPT试图统一大语言模型在结构化数据上的零样本推理过程。其利用迭代阅读-推理(IRR)的方式来解决基于结构化数据的问答任务,并取得了一定的效果。论文地址:https://arxiv.org/pdf/2305.09645.pdfGitHub地址:https://github.com/RUCAIBox/StructGPTPS: 欢迎大家扫码关注公众号,我们一起在AI的世界中探索前行,期待共同进步!原创 2024-06-21 00:41:44 · 397 阅读 · 0 评论 -
智能体「自我进化」全流程--AgentGym
AI通用智能体的自我进化能力,并非遥不可及。基于大语言模型的智能体已经不再需要人类监督者的帮助,开始实现「自我进化」!这个智能体在学习了专家轨迹以后,获得了基础的通用能力,能够在更广泛、更真实的未知环境与任务上进行探索和学习,在外部的反馈下不断提升自己。最近,复旦大学语言与视觉团队推出的 AgentGym 平台,打通了大语言模型智能体「数据采样、训练微调、自我进化、能力评测」全流程。原创 2024-06-20 14:34:11 · 419 阅读 · 0 评论 -
持续学习缓解大模型的灾难性遗忘—综述分享
基础语言模型结合持续学习的方法有助于模型在不重新训练的情况下学习新知识,克服了传统持续学习中的许多限制,具有广阔的应用前景。综述题目:Recent Advances of Foundation Language Models-based Continual Learning: A SurveyPS: 欢迎大家扫码关注公众号,我们一起在AI的世界中探索前行,期待共同进步!原创 2024-06-14 00:14:24 · 240 阅读 · 0 评论 -
离大模型落地应用最近的工程化技术(RAG)
与传统生成模型相比,RAG技术通过结合外部知识库中的信息,使得生成的回答不仅依赖于模型内部的知识,还能动态地引用最新和更全面的信息,从而显著提升生成质量和实用性。RAG技术的应用场景非常广泛,通过召回相关的准确信息来缓解大模型的幻觉问题,有效地弥补了大语言模型在处理实时信息和大规模知识库方面的不足,同时结合了大语言模型的强大的语言理解和生成能力,显著提升了生成内容的质量和实用性。RAG技术的核心思想是结合信息检索和生成模型的优势,通过检索外部知识库的信息来增强生成模型的表现。原创 2024-05-28 22:49:54 · 375 阅读 · 0 评论 -
国内外多模态模型发展的路径是什么样的?
然后把几种模态数据联合起来从从头训练,包括文本、图片、音频、视频等,遵循 next token prediction 的模式,所有模态的数据先变成 token,然后图片、视频等平面数据转换成 32*32 (举例)tokens,最后变成一维线性输入,让模型预测 next token,这样就把不同模态在预训练阶段统一起来。DiTs模块(基于Transformer的扩散模型):模型的核心,将扩散模型的骨干U-Net卷积网络替换为可伸缩性更强的Transformer,展现出优异的可拓展性。原创 2024-05-28 22:46:56 · 817 阅读 · 0 评论 -
大规模语言模型的书籍分享
近一年的时间,本人也花费了大量的时间在写一本关于大模型方面的书籍(清华大学出版社出版,于6月底开启预售),这本书聚焦于大规模语言模型的算法和技术,包括用于训练大规模语言的分布式训练、高效参数优化算法、评估方法,以及大规模语言模型与知识的融合,多模态大规模语言模型等内容,这本书也是理解大规模语言模型背后原理的重要参考资料。第二点是对于数据质量与数据规模的重视:不同于 BERT 时代的预训练语言模型,这次大语言模型的成功与数据有着更为紧密的关系,高质量数据、超大规模数据成为大语言模型的关键基础。原创 2024-05-28 22:44:20 · 453 阅读 · 0 评论 -
NLP技术发展和相关书籍分享
它融合了语言学、计算机科学、机器学习、数学、认知心理学等多学科内容,涉及从字、词、短语到句子、段落、篇章的多种语言单位,以及处理、理解、生成等不同层面的知识点,研究内容涉及的知识点多且复杂。这本书的电子版和PPT在2023年7月就已经开放给大家免费下载,本书作者们都长期从事自然语言处理方面的教学和科研工作,积累了丰富的经验,用了近三年时间多次对内容和结构的讨论和修改,终于在2023年初完成了初稿。更有学者从专业的角度,系统地分析和阐述了自然语言处理的基本概念和简要历史,以及基础技术、核心技术和模型分析。原创 2024-05-28 22:41:38 · 383 阅读 · 0 评论 -
多模态中的模态有哪些
多模态模型的目标是将这些不同模态的信息整合起来,以便模型能够更好地理解数据、执行任务或做出预测。通过结合不同模态的信息,多模态模型可以获得更全面、更准确的理解和推断能力。通过整合这些不同的模态数据,多模态大模型能够实现更全面、多样化的信息处理和分析,为各种复杂任务提供更强大的支持。:多模态大模型能够同时处理多种数据类型,如文本、图像、视频、音频等,从而实现跨模态信息的融合和处理。:多模态大模型在图像描述、视频理解、多模态对话、跨模态推理等领域具有广泛的应用场景。PS: 欢迎关注公众号^_^.原创 2024-05-28 22:38:03 · 374 阅读 · 0 评论 -
SORA和大语言模型的区别
OpenAI的文生视频模型SORA与大语言模型(LLM)的主要区别在于它们的应用领域和处理的数据类型,数据处理能力、技术架构、多模态能力和创新点。SORA作为一款专注于视频生成的模型,展现了在处理视觉数据方面的独特优势和创新能力。原创 2024-03-10 22:36:32 · 480 阅读 · 0 评论 -
大语言模型的“大”体现在哪里
上图中我们可以看到一台8卡的A100(80G)的服务器大概可以提供的计算量为5PFlop/s-day,假设GPT4有万亿参数量,其大概需要的计算量为75352 PFlop/s-day,如果需要15天训练完成的话,估计需要万卡的GPU集群。所以,大语言模型的规模不仅体现在参数数量上,还包括训练数据、计算资源上,这些“大”使得大规模语言模型的泛化能力和应用领域等都得到极大增强。大语言模型通常是通过大规模的文本数据进行训练的,这些数据包含了丰富的语言信息,有助于模型学习更准确的语言表示。原创 2024-03-09 22:00:01 · 530 阅读 · 0 评论 -
Transformer中的FlashAttention
因为Transformer的自注意力机制(self-attention)的计算的时间复杂度和空间复杂度都与序列长度有关,所以在处理长序列的时候会变的更慢,同时内存会增长更多,Transformer模型的计算量和内存占用是序列长度N的二次方。attention算法也是IO敏感的,从上面的图可以看出,通过对GPU显存访问的改进来对attention算法的实现进行优化,可以减少高带宽内存(High Bandwidth Memory,HBM)的访问,来提升模型的训练和推理速度。PS:欢迎扫码头像关注公众号^_^.原创 2024-03-08 10:29:11 · 1158 阅读 · 0 评论 -
Transformer中的位置编码
在Transformer模型中,位置编码是一种特殊的编码方式,用于向模型提供关于输入序列中单词位置的信息。由于Transformer模型没有循环结构,无法像循环神经网络那样从输入序列中推断单词的位置顺序,因此需要引入位置编码来帮助模型理解单词在序列中的位置信息。Transformer 架构由于其自注意力机制 (Self-Attention Mechanism) 的特性,对序列中的元素没有固有的顺序感知。这意味着,如果不加以处理,Transformer 无法区分序列中的元素的相对位置。原创 2024-03-07 10:34:04 · 1161 阅读 · 0 评论 -
大模型分布式并行技术--数据并行优化
也就是说上一个梯度的通信和下一个梯度的计算间并没有依 赖,通信和计算可以并行,让两者的耗时相互重叠掩盖,减少反向的耗时,下图为通信计算并行相互重叠示例。减少总的通信消耗, 可以通过减少通信频率来实现, 通信融合是一个可 行的手段,通过将 N 个梯度的 Allreduce 通信合并成一次 Allreduce 通信,可以减少 N- 1 次通信延迟时间。通信算子调度到通信流, 计 算算子调度到计算流, 同一个流上的算子间是顺序执行的, 不同流上的算子可以并行执行, 从而实现反向中梯 度通信和计算的并行重叠。原创 2023-11-01 19:21:17 · 303 阅读 · 0 评论 -
大模型分布式并行技术--数据并行
数据并行是最常见的并行形式, 因为它很简单。在数据并行训练中, 数据集被分割成几个碎片, 每个碎片被 分配到一个设备上。这相当于沿批次(Batch) 维度对训练过程进行并行化。每个设备将持有一个完整的模型副 本, 并在分配的数据集碎片上进行训练。在反向传播之后, 模型的梯度将被全部减少, 以便在不同设备上的模 型参数能够保持同步。主要分为两个操作: 输入数据切分和模型参数同步。数据并行示例。原创 2023-10-29 14:23:28 · 430 阅读 · 0 评论 -
大模型分布式并行技术--分布式系统
近年来, 大多数出现在顶级人工智能会议上的模型都是在多个 GPU 上训练的, 特别是随着基于 Transformer 的语言模型的提出。当研究人员和工程师开发人工智能模型时, 分布式训练无疑是一种常见的做法。传统的单 机单卡模式已经无法满足超大模型进行训练的要求,这一趋势背后有几个原因。模型规模迅速增加。2018 年的 BERT-Large 有 3.45 亿的参数, 2018 年的 GPT-2 有 15 亿的参数, 而 2020 年 的 GPT-3 有 1750 亿个参数。原创 2023-10-26 17:59:26 · 384 阅读 · 0 评论 -
大规模语言模型--灾难性遗忘
造成灾难性遗忘的一个主要原因是, 传统模型假设数据分布是固定或平稳的, 训练样本是独立同分布的, 所 以模型可以一遍又一遍地看到所有任务相同的数据, 但当数据变为连续的数据流时, 训练数据的分布就是非平稳的, 模型从非平稳的数据分布中持续不断地获取知识时, 新知识会干扰旧知识, 从而导致模型性能的快速下 降, 甚至完全覆盖或遗忘以前学习到的旧知识。灾难遗忘问题多年来一 直被人们所认识并被广泛报道,尤其是在计算机视觉领域,现在微调大语言模型也面临灾难性遗忘的问题,这个问题也出现在LLM微调和训练中。原创 2023-10-23 23:22:13 · 775 阅读 · 0 评论 -
大规模语言模型人类反馈对齐--PPO算法代码实践
在前面的章节我们已经知道,人类反馈强化学习机制主要包括策略模型、奖励模型、评论模型以及参考模型等部分。需要考 虑奖励模型设计、环境交互以及代理训练的挑战, 同时叠加大语言模型的高昂的试错成本。对于研究人员来说, 使用人类反馈强化学习面临非常大的挑战。RLHF 的稳定训练需要大量的经验和技巧。RLHF 的稳定训练需要大 量的经验和技巧,下面针对 PPO 算法的内部工作原理进行代码示意性分析。原创 2023-10-22 21:59:13 · 309 阅读 · 0 评论 -
大规模语言模型人类反馈对齐--RLAIF
这个 AI 标注的偏好是研究人员使用PaLM 2L 生成的, 然后在完整的偏好上训练 RM 数据集, 训练reward 模型 rϕ 的损失如下所示, yw 和 yl 分别代表人类偏好的和非偏好的回复。此外, 还有一些有趣的问题值得研究, 例如 RLHF 与 RLAIF 相结合是否可以优于单一的一种方法, 使用 LLM 直接分配奖励的效果如何, 改进 AI 标注器对齐是否会转化为改进的最终策略, 以及是否使用 LLM 与策略模型大小相同的标注器可以进一步改进策略(即模型是否可以“自我改进”)。原创 2023-10-17 18:20:24 · 202 阅读 · 0 评论 -
大规模语言模型人类反馈对齐--RLHF
大规模语言模型在进行监督微调后, 模型具备了遵循指令和多轮对话的能力, 具备了初步与用户进行对话 的能力。然而, 大规模语言模由于庞大的参数量和训练语料, 其复杂性往往难以理解和预测。当这些模型被部署 时, 它们可能会产生严重的后果, 尤其是当模型变得日渐强大、应用更加广泛、并且频繁地与用户进行互动。因 此,研究者追求将人工智能与人类价值观进行对齐, 提出了大语言模型输出的结果应该满足帮助性 (Helpfulness)、 真实性 (Honesty) 以及无害性 (Harmless) 的 3H 原则。原创 2023-10-16 17:54:25 · 435 阅读 · 0 评论 -
大规模语言模型人类反馈对齐--近端策略优化PPO
近端策略优化算法 (Proximal Policy Optimization,PPO) 即属于 AC 框架下的算法, 在采样策略梯度算法训练 方法的同时, 重复利用历史采样的数据进行网络参数更新, 提升了策略梯度方法的学习效率。实际计算时, 需 要从环境中采样很多轨迹 τ ,然后按照上述策略梯度公式 (或者添加各种可能优化) 对策略函数参数 θ 进行更新。原创 2023-10-15 23:25:23 · 212 阅读 · 0 评论 -
大规模语言模型人类反馈对齐--策略梯度
之前采样出来的数据都不能用了, 换句话说, 过程中的数据都只能用一次。但是在 PG 中, 对于某次策略更新的太大或者太小, 就会得到一个不好的 Policy,一个不好的和环境交互 就会得到一个不好的数据, 用这些不好的数据更新的策略很大概率也是不好的。其中, p(s1 ) 是初始状态 s1 发生的概率, pθ (at |st ) 为给定状态 st 策略函数采取动作 at 的概率, p(st+1|st , at ) 为 给定当前状态 st 和动作 at ,环境转移到状态 st+1 的概率。原创 2023-10-13 23:26:52 · 71 阅读 · 0 评论 -
大规模语言模型人类反馈对齐--强化学习
OpenAI 推出的 ChatGPT 对话模型掀起了新的 AI 热潮, 它面对多种多样的问题对答如流, 似乎已经打破了 机器和人的边界。这一工作的背后是大型语言模型 (Large Language Model,LLM) 生成领域的新训练范式:RLHF (Reinforcement Learning from Human Feedback) ,即以强化学习方式依据人类反馈优化语言模型。过去几年里各种 LLM 根据人类输入提示 (prompt) 生成多样化文本的能力令人印象深刻。原创 2023-10-11 18:39:33 · 190 阅读 · 0 评论 -
大规模语言模型高效调参--混合高效微调系列(MAM Adapter,UniPELT)
近年来提出了多种参数高效的迁移学习方法, 这些方法仅微调少量(额外) 参数即可获得强大的性能。虽 然有效, 但人们对为什么有效的关键要素以及各种高效微调方法之间的联系知之甚少。Adapter 、Prefix Tuning、 LoRA (在结构上和公式上)看起来都不太一样,但是这三种方法有近似的效果?原创 2023-10-11 00:52:38 · 237 阅读 · 0 评论 -
大规模语言模型高效参数微调--LoRA 微调系列
前面提到, Adapter Tuning 存在训练和推理延迟, Prefix Tuning 难训且会减少原始训练数据中的有效文 字长度, 那是否有一种微调办法, 能改善这些不足呢, 在这样的动机驱动下, 有研究者提出了 LoRA(论文:LoRA: Low-Rank Adaptation of Large Language Models) ,LoRA 是 Low-Rank Adaptation 的简写, 它冻结了预先训练好的 模型权重, 通过低秩分解来模拟参数的改变量, 大大减少了下游任务的可训练参数的数量,原创 2023-10-09 23:52:00 · 2007 阅读 · 0 评论 -
大规模语言模型高效参数微调--Adapter 微调系列
至于 adapter 引进的模型参数, 假设 adapter 的输入的特征维度是 d,而中间的特征维度是 m,那么新增的模 型参数有:down-project 的参数 d*m+m ,up_project 的参数 m*d+d,总共 2md+m+d, 由于 m 远小于 d,所以真 实情况下, 一般新增的模型参数都只占语言模型全部参数量的 0.5%~8%。前者的一大问题是需要先验知识来确定顺序, 且模型容易遗忘之前任务 学到的知识,后者的问题是不同的任务会互相影响,也难以平衡数据集大小差距很大的任务。原创 2023-10-09 00:20:55 · 436 阅读 · 0 评论 -
大规模语言模型高效参数微调--P-Tuning 微调系列
同时, 近来的自动化搜索模版工作成本也比较高, 以前这种 离散化的 token 的搜索出来的结果可能并不是最优的, 导致性能不稳定。缺少深度提示优化: 在 Prompt Tuning 和 P-tuning 中,连续提示只被插入 transformer 第一层的输入 embedding 序列中, 在接下来的 transformer 层中, 插入连续提示的位置的 embedding 是由之前的 transformer 层计算出 来的, 这些会带来优化挑战, 因为序列长度的限制, 导致可调参数的数量是有限的;原创 2023-10-07 23:36:08 · 464 阅读 · 0 评论 -
大规模语言模型高效参数微调--BitFit/Prefix/Prompt 微调系列
Prompt token 的长度在 20 左右时的表现已经不错(超过 20 之后, 提升Prompt token 长度, 对模型的性能提升不明显了),同样的, 这个 gap 也会随着模型参数规模的提升而减小(即对于超大 规模模型而言,即使 Prompt token 长度很短,对性能也不会有太大的影响)。那么 prefix 的含义是什么呢?参数高效微调是指微调少量或额外的模型参数, 固定大部分预训练模型(LLM) 参数, 从而大大降低了计 算和存储成本, 同时, 也能实现与全量参数微调相当的性能。原创 2023-10-07 09:51:47 · 278 阅读 · 0 评论 -
大规模语言模型--提示学习和语境学习
有监督微调 (Supervised Finetuning, SFT) 又称指令微调 (Instruction Tuning) ,是指在已经训练好的语言模型 的基础上, 通过使用有标注的特定任务数据进行进一步的微调, 从而使得模型具备遵循指令的能力。经过海量 数据预训练后的语言模型虽然具备了大量的“知识”,但是由于其训练时的目标仅是进行下一个词的预测, 此时 的模型还不能够理解并遵循人类自然语言形式的指令。为了能够使得模型具有理解并响应人类指令的能力, 还 需要使用指令数据对其进行微调。原创 2023-10-06 00:05:20 · 425 阅读 · 0 评论 -
大规模语言模型--训练成本
目前,基于 Transformers 架构的大型语言模型 (LLM),如 GPT、T5 和 BERT,已经在各种自然语言处理 (NLP) 任务中取得了 SOTA 结果。将预训练好的语言模型(LM) 在下游任务上进行微调已成为处理 NLP 任务的一种 范式。与使用开箱即用的预训练 LLM (例如: 零样本推理) 相比, 在下游数据集上微调这些预训练 LLM 会带来 巨大的性能提升。但是, 随着模型变得越来越大, 在消费级硬件上对模型进行全部参数的微调(full fine-tuning) 变得不可行。原创 2023-10-03 18:47:04 · 895 阅读 · 0 评论