【Datawhale组队学习】2023年11月动手学大模型应用开发 —— 第一章 大模型简介

一、大模型基本概念

大语言模型(英文:Large Language Model,缩写LLM),也称大型语言模型,是一种人工智能模型,旨在理解和生成人类语言。

通常,大语言模型 (LLM) 指包含数百亿(或更多)参数的语言模型,这些模型在大量的文本数据上进行训练。

国外的大模型有:

  • GPT-3
  • GPT-4
  • PaLM
  • Galactica
  • LLaMA

国内的大模型有:

  • ChatGLM
  • 文心一言
  • 通义千问
  • 讯飞星火

尽管大型语言模型(例如拥有 1750 亿参数的 GPT-3 和 5400 亿参数的 PaLM)与小型语言模型(例如 BERT 的 3.3 亿参数和 GPT-2 的 15 亿参数)使用相似的架构和预训练任务,但它们展现出截然不同的能力,尤其在解决复杂任务时表现出了惊人的潜力,这被称为“涌现能力”。

二、大模型的能力和特点

2.1 涌现能力

  1. 上下文学习:上下文学习能力是由 GPT-3 首次引入的。这种能力允许语言模型在提供自然语言指令或多个任务示例的情况下,通过理解上下文并生成相应输出的方式来执行任务,而无需额外的训练或参数更新。

  2. 指令遵循:通过使用自然语言描述的多任务数据进行微调,也就是所谓的指令微调,LLM 被证明在同样使用指令形式化描述的未见过的任务上表现良好。这意味着LLM能够根据任务指令执行任务,而无需事先见过具体示例,这展示了其强大的泛化能力

  3. 逐步推理:小型语言模型通常难以解决涉及多个推理步骤的复杂任务,例如数学问题。然而,LLM通过采用"思维链"推理策略,可以利用包含中间推理步骤的提示机制来解决这些任务,从而得出最终答案。据推测,这种能力可能是通过对代码的训练获得的。

2.2 支持多元应用的能力

借助于海量无标注数据的训练,获得可以适用于大量下游任务的大模型(单模态或者多模态)。这样,多个应用可以只依赖于一个或少数几个大模型进行统一建设,提高研发效率。

三、常见大模型

闭源:

所属公司模型名称
OpenAIGPT系列
AnthropicClaude 系列
GooglePaLM 系列
百度文心一言
科大讯飞星火大模型

开源:

所属公司模型名称
MetaLLaMA 系列
清华 & 智谱AI等GLM 系列
阿里巴巴通义千问
百川智能Baichuan 系列

四、大模型应用场景

领域应用场景
自然语言处理文本生成、自动翻译、信息检索、摘要生成、聊天机器人、虚拟助手
信息检索改进搜索引擎

五、什么是LangChain?

LangChain 框架是一个开源工具,充分利用了大型语言模型的强大能力,以便开发各种下游应用。它的目标是为各种大型语言模型应用提供通用接口,从而简化应用程序的开发流程。具体来说,LangChain 框架可以实现数据感知和环境互动,也就是说,它能够让语言模型与其他数据来源连接,并且允许语言模型与其所处的环境进行互动。

LangChian 作为一个大语言模型开发框架,可以将 LLM 模型(对话模型、embedding模型等)、向量数据库交互层 Prompt外部知识外部代理工具整合到一起,进而可以自由构建 LLM 应用。LangChain主要由6部分组成:

  • 模型输入/输出(Model I/O):与语言模型交互的接口
  • 数据连接(Data connection):与特定应用程序的数据进行交互的接口
  • 链(Chains):将组件组合实现端到端应用
  • 记忆(Memory):用于链的多次运行之间持久化应用程序状态
  • 代理(Agents):扩展模型的推理能力。用于复杂的应用的调用序列
  • 回调(Callbacks):扩展模型的推理能力。用于复杂的应用的调用序列
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值