了解各种 LLM 之间的差异

最新推荐文章于 2024-07-22 09:58:45 发布

cn-zhang-leon

最新推荐文章于 2024-07-22 09:58:45 发布

阅读量1k

点赞数 19

文章标签：语言模型

本文链接：https://blog.csdn.net/qq_14887259/article/details/140488809

版权

大型语言模型（LLM）彻底改变了自然语言处理（NLP），并实现了传统NLP任务之外的神奇功能。此功能包括从在 GitHub 存储库上自动生成 PR 到自动执行营销副本的所有内容。在这篇博文中，我们将为 LLM 模型的格局开发一个心智模型，重点关注五个关键的差异化特征：访问、许可、大小、上下文长度和语言/领域。了解这些功能对于研究人员、开发人员和用户来说至关重要，因为他们试图驾驭 LLM 的多样化世界。

（1）访问：开放获取模型，如Falcon、MPT、Pythia等，通常以可从Hugging Face等中心下载的集合参数和配置的形式提供给研究人员和开发人员（例如，参见Falcon-7B的模型卡）。下载的参数（或权重）可以与代码（例如，Hugging Face 的 transformers 库）相结合以执行文本补全。

封闭模型，例如来自 OpenAI、Cohere 和 Anthropic 的模型，仅供研究人员和开发人员通过 API 或企业部署使用。这些模型的参数和代码实现不可公开访问，并且使用这些模型可能需要付费订阅、企业合作伙伴关系、许可协议以及自定义（特定于产品）的条款和条件的某种组合。

对开发人员的影响：与开放获取 LLM 相比，封闭模型在广泛的任务上仍然具有更好的性能（在撰写这篇博文时）。这是以可疑的隐私（与您放入模型中的数据有关）为代价的，有时还会以令人震惊的价格（因为您需要为每个令牌输入的使用付费）。但是，大多数开发人员不需要使用 LLM 做各种各样的事情。如果您希望使用 LLM 大规模完成特定任务（例如，数据提取），开放获取 LLM 可能会解决问题。您可以在自己的基础设施中托管这些模型（使用 Sagemaker、Baseten 或 Modal 等工具），确保隐私，并创建强大的定制 AI 系统。

（2）许可：LLM受各种许可条款的约束，这些条款可以决定其使用、分发和商业可行性。一些模型是开放且免费用于商业用途的（例如 MosaicML 的 MPT 系列模型），允许开发人员不受限制地利用其功能。其他人可能具有具有特定使用限制的开放许可证，例如Open-RAIL许可证（适用于BLOOM等型号）或禁止商业使用的自定义许可证（适用于Llama等型号）。封闭模型的许可条款通常由开发它们的组织或公司确定。

对开发人员的影响：检查您正在使用的模型的许可。特别是对于开放获取模型，您将无法在商业产品中利用某些模型。一个专业技巧是根据许可证过滤 Hugging Face 模型。

（3）大小或参数计数：LLM 的大小通常由它包含的参数数量来衡量。较大的模型往往具有更多参数，这可以提高各种任务的性能。然而，模型大小的增加也伴随着计算资源要求，这使得它们的训练和部署要求更高。例如，像 Dolly-3B 这样的模型有大约 30 亿个参数，可以部署到具有消费类 GPU 卡的系统中。另一方面，像 Falcon-40B 这样的模型，如果没有一些量化、蒸馏或模型优化技巧，就无法部署到标准的消费级 GPU 上。

我们并不总是知道封闭模型的参数计数。在部署方面，这对您来说不是问题，因为提供该模型的商业公司会进行托管。但是，它可能会在输出质量和推理时间方面影响模型的性能。

对开发人员的影响：较大的模型通常表现出增强的语言生成能力，因为在大量数据上训练时捕获了大量的复杂性。但是，与大型模型相关的计算需求或延迟可能会限制它们对具有大量计算资源的组织的影响，从而限制其广泛采用。

（4）上下文长度：区分LLM模型的另一个重要特征是它们能够处理不同长度的上下文。也就是说，您可以或多或少地将内容塞入输入提示中。一些模型旨在擅长短格式提示，重点是处理简洁的文本片段或句子。另一方面，其他模型（如 Anthropic 的 Claude 或 MosaicML 的 Storywriter）使用长篇内容进行训练，并接受大型提示作为输入（超过 100k 个令牌）。这种较长的上下文使开发人员能够处理更大的文本正文，例如段落、文章甚至整本书。

对开发人员的影响：如果你在 LLM 提示中检索长篇内容（例如，大型文章）以获取上下文，则需要使用具有大上下文窗口的模型，或者需要将内容分割为“块”。如果您想搜索和推理大量文本，您可能别无选择。在这些情况下，您将需要利用向量数据库（Chroma、Weaviate、Pinecone 等）来分割、嵌入和查询外部知识的相关块，并且您需要将检索到的知识注入到较短的提示中。像 LlamaIndex 和 LangChain 这样的框架可以在这方面提供帮助。

（5）语言或领域：最后，LLM在支持的语言和训练的领域方面有所不同。一些模型专注于英语，而另一些模型则包含多种语言，例如 Flan。此外，某些 LLM 在医学、法律或金融等特定领域接受培训，而其他 LLM 则专为一般领域任务而设计。

对开发人员的影响：如果您正在处理世界排名前 10 位左右的语言之外的语言的文本，则大多数大型语言模型都不适合您。你可以采用像XLM-Roberta或Flan这样的多语言模型，并使用你可以访问的语言数据对其进行微调，或者你可以尝试机器翻译你的提示和输出。同样，如果你在一个非常专业的领域工作，而这个领域还没有一个专门构建的LLM，你可能需要进行微调。

cn-zhang-leon

关注

19
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
了解各种 LLM 之间的差异

这是以可疑的隐私（与您放入模型中的数据有关）为代价的，有时还会以令人震惊的价格（因为您需要为每个令牌输入的使用付费）。在这些情况下，您将需要利用向量数据库（Chroma、Weaviate、Pinecone 等）来分割、嵌入和查询外部知识的相关块，并且您需要将检索到的知识注入到较短的提示中。你可以采用像XLM-Roberta或Flan这样的多语言模型，并使用你可以访问的语言数据对其进行微调，或者你可以尝试机器翻译你的提示和输出。然而，模型大小的增加也伴随着计算资源要求，这使得它们的训练和部署要求更高。
复制链接

扫一扫