复旦大学自然语言处理实验室张奇教授、桂韬研究员、郑锐博士生以及黄萱菁教授结合之前在自然语言处理领域研究经验,以及分布式系统和并行计算的教学经验,通过在大语言模型实践和理论研究的过程中,历时 8 个月完成本书《大规模语言模型·从理论到实践》不可错过!
《大规模语言模型·从理论到实践
》旨在为对大语言模型感兴趣的读者提供一个入门指南,并可作为高年级本科生和研究生自然语言处理相关课程的大语言模型部分补充教材。
章节内容
下载当前版本: 完整版本链接获取
大语言模型涉及深度学习、自然语言处理、分布式计算、分布式计算等众多领域。因此,建议读者在阅读本书之前,首先系统地学习深度学习和自然语言处理的相关课程。在分布式计算和异构计算方面,读者需要具备基本的概念。如果希望在大语言模型训练和推理方面进行深入研究,还需要系统学习分布式系统、并行计算、CUDA 编程等相关知识。
本书围绕大语言模型构建的四个主要阶段:预训练、有监督微调、奖励建模和强化学习,详细介绍各阶段使用的算法、数据、难点以及实践经验。
目录:
第一章 绪论
第二章 大语言模型基础
第三章 大语言模型预训练数据
第四章 分布式模型训练
第五章 有监督微调
第六章 强化学习
第七章 大语言模型应用
第八章 大语言模型评估
《实战AI大模型》是一本旨在填补人工智能(AI)领域(特别是AI大模型)理论与实践之间鸿沟的实用手册。书中介绍了AI大模型的基础知识和关键技术,如Transformer、BERT、ALBERT、T5、GPT系列、InstructGPT、ChatGPT、GPT 4、PaLM和视觉模型等,并详细解释了这些模型的技术原理、实际应用以及高性能计算(HPC)技术的使用,如并行计算和内存优化。
同时,《实战AI大模型》还提供了实践案例,详细介绍了如何使用Colossal AI训练各种模型。无论是人工智能初学者还是经验丰富的实践者,都能从本书学到实用的知识和技能,从而在迅速发展的AI领域中找到适合自己的方向。
为了帮助读者更好地理解和应用AI大模型,本书详细介绍了从基本概念到实践技巧的诸多内容。每章均将重点放在介绍核心概念、关键技术和实战案例上。涵盖了从基本概念到前沿技术的广泛内容,包括神经网络、Transformer模型、BERT模型、GPT系列模型等。
书中详细介绍了各个模型的原理、训练方法和应用场景,并探讨了解决AI大模型训练中的挑战和优化方法。此外,书中还讨论了分布式系统、并行策略和内存优化等关键技术,以及计算机视觉和自然语言处理等领域中Transformer模型的应用。总体而言,本书提供了一个全面的视角,帮助读者深入了解AI大模型和分布式训练在深度学习领域的重要性和应用前景。
前言
第1章 深度学习中的AI大模型
- 1.1 AI大模型在人工智能领域的兴起
- 1.2 深度学习框架入门
第2章 分布式系统:AI大模型的诞生之所
- 2.1 深度学习与分布式系统
- 2.2 AI大模型训练方法
- 2.3 异构训练
- 2.4 实战分布式训练
第3章 分布式训练:上千台机器如何共同起舞
- 3.1 并行策略基础原理
- 3.2 高级并行策略基础原理
- 3.3 实战分布式训练
第4章 AI大模型时代的奠基石Transformer模型
- 4.1 自然语言处理基础
- 4.2 Transformer详解
- 4.3 Transformer的变体与扩展
第5章 AI大幅度提升Google搜索质量:BERT模型
- 5.1 BERT模型详解
- 5.2 高效降低内存使用的ALBERT模型
- 5.3 BERT模型实战训练
第6章 统一自然语言处理范式的T5模型
- 6.1 T5模型详解
- 6.2 统一BERT和GPT的BART模型
- 6.3 统一语言学习范式的UL2框架
- 6.4 T5模型预训练方法和关键技术
第7章 作为通用人工智能起点的GPT系列模型
- 7.1 GPT系列模型的起源
- 7.2 GPT 2模型详解
- 7.3 GPT 3模型详解
- 7.4 GPT 3模型构建与训练实战
第8章 兴起新一代人工智能浪潮:ChatGPT模型
- 8.1 能与互联网交互的WebGPT
- 8.2 能与人类交互的InstructGPT模型
- 8.3 ChatGPT和GPT4
- 8.4 构建会话系统模型
第9章 百花齐放的自然语言模型:Switch Transfomer和PaLM
- 9.1 万亿参数稀疏大模型Switch Transformer
- 9.2 PaLM模型:优化语言模型性能
- 9.3 PaLM实战训练
第10章 实现Transformer向计算机视觉进军的ViT模型
- 10.1 Transformer在计算机视觉中的应用
- 10.2 视觉大模型的进一步发展:Transformer与卷积的融合
- 10.3 ViT模型构建与训练实战