大模型简介
大模型是单个具有庞大参数数量的神经网络模型,不是由多个小模型组成的。
大型神经网络模型通过庞大的规模和复杂的网络架构,能够在单一框架内学习和处理极其广泛和复杂的数据和任务,捕捉和学习数据中的深层次模式和关系。
参数规模:千亿-万亿数量的参数
训练数据:涉及多领域的庞大数据量,数据多样化,以保证模型良好的泛化能力
计算资源:需要庞大的计算资源训练资源,需要多个高性能的GPU或TPU进行并行训练,需要持续数周或数月。
大模型与单独模型的差异
大模型与单独模型的差异表现在规模、复杂性、训练数据量、计算资源需求、应用范围等。
- 模型规模:大模型已到达千亿参数规模
- 架构复杂:大模型采用更加复杂的架构,如transformer架构,有效处理序列数据,捕捉长距离依赖关系。
- 数据需求:为避免过拟合,具有更好的泛化能力,大模型需要十亿到万亿规模的数据。
- 计算资源:大模型需要巨大的资源,训练周期以周或月为单位
- 泛化能力:大模型由于庞大的参数和复杂的数据处理能力,具有更好的泛化能力。
- 多任务学习:大模型不需要针对特定任务重新学习或微调,以前的单独模型则需要为每个任务单独训练模型。
- 可解释性:大模型内部的决策过程难以解释和理解。小模型则容易分析和理解。
大模型和小模型的训练过程的步骤基本一致。
学习策略
基础知识
大模型以机器学习、深度学习为基础,这些在google tensorflow学习者教程中都有。
嵌入的概念:将资源(如文本、音视频)转换数字形式,即某固定长度的向量。
大模型的历史和演进
2017年Transformer模型,大模型发展的重大里程碑,引入自注意力机制。在处理序列化数据时,为每个元素分配不同的注意力权重。 处理长距离依赖关系时表现出色,极大提高模型处理自然语言处理任务(NLP)的能力。
2018年google BERT模型,基于transformer,引入双向训练概念,模型在学习一个词时,同时考虑前边和后边的上下文信息。当时NLP处理很出色。
GPT由openai开发,是一系列基于transformer的大语言模型。采用预训练加微调的模式。首先是在大规模语料集上进行预训练,学习语言的通用模式和结构,然后在特定任务上进行微调。
Llama由meta开发
Phi由微软开发
演进过程
- 自注意力机制 transformer
- 双向上下文理解 bert
- 预训练加微调 gpt
- 层次化结构 都是通过层次化的设计,有效支持神经网络结构参数规模的增加。