今年读过最绝的大模型神书，看完直接脱胎换骨

最新推荐文章于 2024-10-04 22:36:54 发布

功城师

最新推荐文章于 2024-10-04 22:36:54 发布

阅读量1.2k

点赞数 27

文章标签：人工智能大模型大语言模型 LLM AI大模型深度学习 AI

本文链接：https://blog.csdn.net/qingkahui24689/article/details/141757907

版权

书名📖：《大语言模型：基础与前沿》
该书深入阐述了大语言模型（Large Language Model, LLM）的基本概念和算法、研究前沿以及应用，内容全面且系统性强，适合👨🏻‍🎓高年级本科生和研究生、博士后研究人员、讲师以及行业从业者阅读与参考

在这里插入图片描述

主要内容
该书从多个方面对大语言模型进行了深入探讨，主要包括但不限于以下几个方面：
1、大语言模型的基本概念与架构： 介绍了人工智能领域的进展和趋势，详细探讨了语言模型的基本概念和架构，特别是Transformer模型的原理和应用

2、预训练目标和解码策略： 详细讲解了语言模型的预训练目标，如Language Modeling，并介绍了多种解码策略，这些策略对于提升语言模型的性能至关重要

3、上下文学习和轻量级微调： 探讨了如何利用上下文学习和轻量级微调技术来优化语言模型，使其更好地适应不同的应用场景

4、训练更大的模型： 介绍了如何训练更大规模的语言模型，包括扩大尺度法则、涌现能力、人工智能加速器以及并行训练技术等

5、稀疏专家模型： 深入分析了稀疏专家模型的优势和应用，包括其路由算法、改进措施以及在不同领域的应用

6、检索增强型语言模型： 探讨了如何通过检索增强技术来提升语言模型的性能，包括预训练检索增强型语言模型、词元级检索等

7、对齐语言模型与人类偏好： 介绍了如何通过基于人类反馈的微调、强化学习等方法来使语言模型的输出更符合人类的偏好和期望

8、减少偏见和有害性： 分析了语言模型中存在的偏见和有害性问题，并提出了多种检测和减少这些问题的方法。

视觉语言模型：探讨了语言模型在视觉领域的应用，包括多模态落地、视觉语言建模等

⭐特色与亮点
1⃣️内容全面：该书涵盖了大语言模型的广泛主题，从基础到前沿，从方法到应用，涉及从方法论到应用场景方方面面的内容
2⃣️系统性强：结构清晰，逻辑严密，有助于读者系统地理解和掌握大语言模型的相关知识
3⃣️实践性强：不仅注重理论知识的介绍，还提供了丰富的实践案例和技巧，有助于读者将所学知识应用于实际工作中

总结
《大语言模型：基础与前沿》是一本关于大语言模型的权威著作，适合对大语言模型感兴趣的读者深入学习和研究。通过阅读该书，读者可以全面了解大语言模型的基本概念、算法原理、研究前沿以及应用实践等方面的知识。

这本大模型《大语言模型：基础与前沿》已经上传CSDN，还有完整版的大模型 AI 学习资料，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

PDF书籍： 完整版本链接获取

👉[CSDN大礼包🎁：《大语言模型：基础与前沿》免费分享（安全链接，放心点击）]👈

第 1章大语言模型：辩论、争议与未来发展方向 1

1.1 新时代的曙光 1

1.2 LLM有意识吗 3

1.2.1 理解LLM的层次结构 3

1.2.2 意识是否需要碳基生物学 4

1.2.3 具身化与落地 4

1.2.4 世界模型 7

1.2.5 沟通意图 8

1.2.6 系统性和全面泛化 9

1.3 未来发展方向 10

1.4 小结 13

第 2章语言模型和分词 15

2.1 语言建模的挑战 16

2.2 统计语言建模 16

2.3 神经语言模型 18

2.4 评估语言模型 19

2.5 分词 19

2.5.1 按空格分割 20

2.5.2 字符分词 21

2.5.3 子词分词 21

2.5.4 无分词器 24

2.5.5 可学习的分词 25

2.6 小结 27

第3章 Transformer 29

3.1 Transformer编码器模块 29

3.2 编码器-解码器架构 31

3.3 位置嵌入 32

3.3.1 绝对位置编码 32

3.3.2 相对位置编码 34

3.4 更长的上下文 38

3.5 外部记忆 42

3.6 更快、更小的Transformer 45

3.6.1 高效注意力 45

3.6.2 条件计算 47

3.6.3 搜索高效Transformer 48

3.6.4 在单个GPU上一天内训练一个语言模型 49

3.7 推理优化 49

3.7.1 推测解码 49

3.7.2 简化Transformer 51

3.7.3 修剪 52

3.7.4 蒸馏 53

3.7.5 混合精度 54

3.7.6 高效扩展Transformer推理 54

3.8 小结 56

第4章预训练目标和解码策略 57

4.1 模型架构 57

4.2 预训练目标 60

4.3 具有代表性的语言模型 62

4.4 解码策略 67

4.5 小结 72

第5章上下文学习和轻量级微调 73

5.1 上下文学习 74

5.1.1 示范样本选择 75

5.1.2 样本排序 82

5.1.3 指令生成 82

5.1.4 思维链 84

5.1.5 递归提示 87

5.1.6 为什么ICL有效 90

5.1.7 评估 93

5.2 提示语言模型的校准 94

5.3 轻量级微调 97

5.3.1 基于添加的方法 98

5.3.2 基于规范的方法 100

5.3.3 基于重新参数化的方法 101

5.3.4 混合方法 103

5.4 小结 104

第6章训练更大的模型 107

6.1 扩大尺度法则 107

6.1.1 预训练Transformer扩大尺度的启示 107

6.1.2 预训练和微调Transformer带来的新启示 110

6.1.3 k比特推理扩大尺度法则 111

6.1.4 挑战与机遇 112

6.2 涌现能力 113

6.3 人工智能加速器 115

6.4 并行 117

6.4.1 数据并行 119

6.4.2 流水线并行 126

6.4.3 张量/模型并行 131

6.4.4 专家混合 133

6.5 混合训练和低精度训练 133

6.5.1 单位缩放 133

6.5.2 FP8与INT8 135

6.6 其他节省内存的设计 136

6.7 小结 137

第7章稀疏专家模型 139

7.1 为什么采用稀疏专家模型 139

7.2 路由算法 142

7.2.1 每个词元选择top-k个专家 142

7.2.2 每个专家选择top-k个词元 144

7.2.3 全局最优分配 145

7.2.4 随机路由 148

7.2.5 双层路由 149

7.2.6 针对不同预训练领域的不同专家 149

7.3 其他改进措施 152

7.3.1 加快训练速度 152

7.3.2 高效的MoE架构 153

7.3.3 生产规模部署 154

7.3.4 通过稀疏MoE扩展视觉语言模型 154

7.3.5 MoE与集成 155

7.4 小结 156

第8章检索增强型语言模型 157

8.1 预训练检索增强型语言模型 158

8.2 词元级检索 161

8.3 通过高效和精简检索进行问答和多跳推理 163

8.4 检索增强型Transformer 166

8.5 检索增强型黑盒语言模型 168

8.6 视觉增强语言建模 169

8.7 小结 170

第9章对齐语言模型与人类偏好 171

9.1 基于人类反馈进行微调 172

9.1.1 基于人类反馈的强化学习 172

9.1.2 KL散度：前向与反向 174

9.1.3 REINFORCE、TRPO和PPO 174

9.1.4 带有KL惩罚的强化学习：贝叶斯推理观点 178

9.1.5 通过分布控制生成进行语言模型对齐 180

9.1.6 通过f散度最小化统一RLHF和GDC方法 182

9.2 基于语言反馈进行微调 183

9.3 基于监督学习进行微调 184

9.4 基于人工智能反馈的强化学习 185

9.5 基于自我反馈进行迭代优化 188

9.6 基于人类偏好进行预训练 190

9.7 小结 193

第 10章减少偏见和有害性 195

10.1 偏见 196

10.2 有害性 199

10.3 偏见和有害性的检测与减少 200

10.3.1 基于解码的策略 201

10.3.2 基于提示的脱毒 202

10.3.3 基于数据的策略 204

10.3.4 基于投影和正则化的方法 205

10.3.5 基于风格转换的方法 205

10.3.6 基于强化学习的微调和基于人类偏好的预训练 206

10.4 小结 206

第 11章视觉语言模型 207

11.1 语言处理的多模态落地 207

11.2 不需要额外训练即可利用预训练模型 208

11.2.1 视觉引导解码策略 208

11.2.2 作为大语言模型提示的视觉输入 209

11.2.3 基于相似性搜索的多模态对齐 212

11.3 轻量级适配 213

11.3.1 锁定图像调优 213

11.3.2 作为（冻结）语言模型前缀的学习视觉嵌入 214

11.3.3 视觉-文本交叉注意力融合 216

11.4 图文联合训练 219

11.5 检索增强视觉语言模型 222

11.6 视觉指令调整 225

11.7 小结 227

第 12章环境影响 229

12.1 能源消耗和温室气体排放 229

12.2 估算训练模型的排放量 230

12.3 小结 231

在这里插入图片描述

这本大模型《大语言模型：基础与前沿》已经上传CSDN，还有完整版的大模型 AI 学习资料，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

PDF书籍： 完整版本链接获取

👉[CSDN大礼包🎁：《大语言模型：基础与前沿》免费分享（安全链接，放心点击）]👈

功城师

关注

27
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

今年读过最绝的大模型神书，看完直接脱胎换骨

这本大模型《大语言模型：基础与前沿》已经上传CSDN，还有完整版的大模型 AI 学习资料，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

第 1章 大语言模型：辩论、争议与未来发展方向 1

第 2章 语言模型和分词 15

第3章 Transformer 29

第4章 预训练目标和解码策略 57

第6章 训练更大的模型 107

第7章 稀疏专家模型 139

第8章 检索增强型语言模型 157

第9章 对齐语言模型与人类偏好 171

第 10章 减少偏见和有害性 195

第 11章 视觉语言模型 207

第 12章 环境影响 229

这本大模型《大语言模型：基础与前沿》已经上传CSDN，还有完整版的大模型 AI 学习资料，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

这本大模型《大语言模型：基础与前沿》已经上传CSDN，还有完整版的大模型 AI 学习资料，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

第 1章大语言模型：辩论、争议与未来发展方向 1

第 2章语言模型和分词 15

第4章预训练目标和解码策略 57

第6章训练更大的模型 107

第7章稀疏专家模型 139

第8章检索增强型语言模型 157

第9章对齐语言模型与人类偏好 171

第 10章减少偏见和有害性 195

第 11章视觉语言模型 207

第 12章环境影响 229

这本大模型《大语言模型：基础与前沿》已经上传CSDN，还有完整版的大模型 AI 学习资料，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】