初识LLM大语言模型
一、概念
大语言模型(Large Language Model)是一种人工智能模型,旨在理解和生成人类语言。
尽管这些大型语言模型与小型语言模型使用相似的架构和预训练任务,但它们展现出截然不同的能力,尤其在解决复杂任务时表现出了惊人的潜力,这被称为“涌现能力”。以 GPT-3 和 GPT-2 为例,GPT-3 可以通过学习上下文来解决少样本任务,而 GPT-2 在这方面表现较差。
二、能力
1. 涌现能力(emergent abilities):模型性能随着规模增大而迅速提升,并获得处理复杂任务的能力
三个典型的LLM涌现能力:
- 上下文学习:允许语言模型在提供自然语言指令或多个任务示例的情况下,通过理解上下文并生成相应输出的方式来执行任务
- 指令遵循:通过使用自然语言描述的多任务数据进行微调(指令微调),即能够根据任务指令执行任务,而无需事先见过具体示例
- 逐步推理:可以利用包含中间推理步骤的提示机制来解决数学问题等涉及多个推理步骤的复杂任务
2. 作为基座模型支持多元应用
基座模型(foundation model)是一种全新的AI技术范式,借助于海量无标注数据的训练,获得可以适用于大量下游任务的大模型。
3.支持对话作为统一入口
三、特点
- 使用预训练和微调作为学习方法
- 多语言与多模态支持
- 多领域应用
- 伦理和风险问题
四、langchain框架
1. 简介
LangChain 框架是一个开源工具,旨在帮助开发者们快速构建基于大型语言模型的端到端应用程序或工作流程。
其充分利用了大型语言模型的强大能力,以便开发各种下游应用。它的目标是为各种大型语言模型应用提供通用接口,从而简化应用程序的开发流程。
具体来说,LangChain 框架可以实现数据感知和环境互动,也就是说,它能够让语言模型与其他数据来源连接,并且允许语言模型与其所处的环境进行互动。
2. 核心组件
- 模型输入/输出(Model I/O):与语言模型交互的接口
- 数据连接(Data connection):与特定应用程序的数据进行交互的接口
- 链(Chains):将组件组合实现端到端应用。
- 记忆(Memory):用于链的多次运行之间持久化应用程序状态;
- 代理(Agents):扩展模型的推理能力。用于复杂的应用的调用序列;
- 回调(Callbacks):扩展模型的推理能力。用于复杂的应用的调用序列;