常见的大模型定制策略（一）如何选择LLM？

AI Agent开发

于 2025-02-28 14:22:05 发布

阅读量796

点赞数 17

文章标签：人工智能自然语言处理大模型语言模型 ai LLM

本文链接：https://blog.csdn.net/m0_56255097/article/details/145927502

版权

大语言模型（LLM）是基于自监督学习预训练的深度学习模型，训练数据量庞大、训练时间长，并且包含大量的参数。LLM在过去两年中彻底改变了自然语言处理领域，展现了在理解和生成类人文本方面的卓越能力。

然而，这些通用模型的开箱即用性能并不总能满足特定的业务需求或领域要求。LLM单独使用时无法回答依赖于公司专有数据或封闭环境的问题，这使得它们在应用中显得相对通用。

由于从零开始训练一个LLM模型需要大量的训练数据和资源，这对于中小型团队来说基本不可行。因此，近年来开发了多种LLM定制策略，以便针对需要专业知识的不同场景调优模型。

定制策略大致可以分为两种类型：

使用冻结模型：这些技术不需要更新模型参数，通常通过上下文学习或提示工程来实现。由于它们通过改变模型的行为而不需要大量训练成本，因此具有成本效益，广泛应用于工业界和学术界，每天都有新的研究论文发表。
更新模型参数：这是一种相对资源密集的方法，需要使用为特定目的设计的自定义数据集来调优预训练的LLM。这包括如微调（Fine-Tuning）和基于人类反馈的强化学习（RLHF）这些流行的技术。

这两种定制范式进一步分化为各种专门的技术，包括LoRA微调、思维链（Chain of Thought）、检索增强生成（RAG）、ReAct和Agent框架等。每种技术在计算资源、实现复杂度和性能提升方面提供了不同的优势和权衡。

一、如何选择LLM？

定制LLM的第一步是选择合适的基础模型作为基准。例如Huggingface这些基于社区的平台，提供了由顶级公司或社区贡献的各种开源预训练模型，如Meta的Llama系列和Google的Gemini。Huggingface还提供了例如Open LLM Leaderboard这样的排行榜，可以根据行业标准的指标和任务（如MMLU）来比较LLM。

云服务提供商如AWS（亚马逊）和AI公司（如OpenAI和Anthropic）也提供访问专有模型的服务，这些通常是付费服务，且访问受限。

选择LLM时需要考虑以下几个因素：

开源模型还是专有模型：开源模型允许完全定制和自托管，但需要技术专业知识，而专有模型则提供即时访问，通常可以提供更好的响应质量，但成本较高。
任务和指标：不同的模型在不同任务上表现出色，包括问答、总结、代码生成等。通过比较基准指标并在特定领域任务上进行测试，来确定合适的模型。
架构：一般来说，仅解码器模型（如GPT系列）在文本生成方面表现更好，而编码-解码模型（如T5）在翻译任务上表现优秀。现在有更多的架构出现并展现出良好的结果，例如专家混合模型（MoE）DeepSeek。
参数数量和模型大小：较大的模型（70B-175B参数）通常提供更好的性能，但需要更多的计算资源。较小的模型（7B-13B）运行更快且更便宜，但可能在能力上有所减少。

在确定了基础LLM之后，让我们来看一下六种最常见的LLM定制策略，按资源消耗从最少到最多的顺序排列：