入行大模型必看的第一本书-《多模态大模型：技术原理与实战》

本文链接：https://blog.csdn.net/2401_85373396/article/details/142590834

《多模态大模型：技术原理与实战》

详述ChatGPT的核心技术，以及GPT的进化史和创新点，让你全面了解大模型技术的演化过程和未来的发展趋势。
在这里插入图片描述

内容简介

本书详细介绍了大语言模型和多模态大模型的发展历史、技术原理和亮点、主要的开源框架、配套工具、部署细则和实战案例。为了让读者更好地进行大模型的应用实战，本书还详细介绍了使用大模型为商业赋能的3个应用案例。期望本书能够帮助读者打开通往大模型尤其是多模态大模型的学习、实战和商业成功之路。

适读人群：

本书适用于从事人工智能工作的专业技术人员，比如算法工程师、研发工程师等，也适用于对多模态大模型感兴趣的各类从业者，比如产品经理、项目经理和各级管理人员等。

书籍亮点：

1、过微调和量化压缩，让中小公司也能用得起多模态大模型，并介绍了从0到1部署多模态大模型。
2、实战性强，详细介绍了使用大模型为商业赋能的3个应用案例。

这本大模型《多模态大模型：技术原理与实战》已经上传CSDN，还有完整版的大模型 AI 学习资料，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

PDF书籍： 完整版本链接获取

👉[CSDN大礼包🎁：《多模态大模型：技术原理与实战》免费分享（安全链接，放心点击）]👈

目录书籍

第1章 OpenAI一鸣惊人带来的启示 1
1.1 OpenAI的成长并非一帆风顺 2
1.2 OpenAI成功的因素 5
1.3 OpenAI特殊的股权设计带来的启示 7
1.4 思考 11
第2章 自然语言处理的发展历程 13
2.1 自然语言处理的里程牌 14
2.1.1 背景介绍 14
2.1.2 自然语言处理发展的7个阶段 15
2.2 从BERT模型到ChatGPT 30
2.3 BERT模型到底解决了哪些问题 31
2.4 BERT模型诞生之后行业持续摸索 38
2.5 ChatGPT的诞生 41
2.5.1 InstructGPT模型的构建流程 42
2.5.2 ChatGPT和InstructGPT的差异 44
2.5.3 ChatGPT和BERT大模型在公开数据集上的测试 45
2.5.4 高质量的数据标注 46
2.6 思考 48
第3章 读懂ChatGPT的核心技术 50
3.1 基于Transformer的预训练语言模型 50
3.2 提示学习与指令微调 55
3.3 基于人工反馈的强化学习 59
3.4 思维链方法 61
3.5 集成学习 64
3.6 思考 67
第4章 看清GPT的进化史和创新点 68
4.1 GPT技术的发展历程 68
4.1.1 GPT-1技术的发展历程 68
4.1.2 GPT-2技术的发展历程 72
4.1.3 GPT-3技术的发展历程 73
4.2 GPT的创新点总结 75
4.3 思考 77
第5章 大模型+多模态产生的“化学反应” 78
5.1 多模态模型的发展历史 78
5.2 单模态学习、多模态学习和跨模态学习的区别 82
5.3 多模态大模型发展的重大里程碑 85
5.4 大模型+多模态的3种实现方法 94
5.5 多模态大模型的效果评估 99
5.6 思考 103
第6章 多模态大模型的核心技术 104
6.1 文本多模态技术 105
6.1.1 基于模板的图像描述方法 106
6.1.2 基于检索的图像描述方法 106
6.1.3 基于深度学习的图像描述方法 106
6.2 图像多模态技术 107
6.2.1 基于GAN的文本生成图像方法 108
6.2.2 基于VAE的文本生成图像方法 110
6.2.3 基于扩散模型的文本生成图像方法 111
6.3 语音多模态技术 112
6.3.1 基于非深度学习的文本生成语音技术 112
6.3.2 基于深度学习的文本生成语音技术 114
6.4 视频多模态技术 117
6.4.1 基于非扩散模型的文本生成视频技术 118
6.4.2 基于扩散模型的文本生成视频技术 119
6.5 跨模态多重组合技术 120
6.6 多模态大模型高效的训练方法 121
6.7 GPT-4多模态大模型核心技术介绍 123
6.8 多模态技术的发展趋势 124
第7章 国内外多模态大模型对比 125
7.1 国内多模态大模型介绍 126
7.1.1 LLaMA-Adapter V2 126
7.1.2 VisualGLM-6B 129
7.1.3 mPLUG-Owl 130
7.2 国外多模态大模型介绍 132
7.2.1 Visual ChatGPT 132
7.2.2 InstructBLIP 133
7.2.3 MiniGPT-4 135
7.3 多模态大模型评测数据集 136
7.3.1 国内评测数据集 137
7.3.2 国外评测数据集 137
7.4 多模态大模型的评测标准 138
7.4.1 国内评测标准 138
7.4.2 国外评测标准 139
7.5 多模态大模型对比 140
7.5.1 感知能力评测 140
7.5.2 认知能力评测 144
7.6 思考 145
第8章 中小公司的大模型构建之路 147
8.1 微调技术介绍 148
8.1.1 LoRA技术 149
8.1.2 AdaLoRA技术 150
8.1.3 QLoRA技术 150
8.1.4 微调加DeepSpeed的ZeRO-3 151
8.2 模型压缩技术介绍 152
8.2.1 剪枝 152
8.2.2 知识蒸馏 154
8.2.3 量化压缩 155
8.3 微调实战 156
8.3.1 部分参数微调实战 157
8.3.2 全参数微调实战 158
8.4 模型压缩实战 160
8.4.1 8位量化压缩实战 160
8.4.2 4位量化压缩实战 161
8.5 思考 163
第9章 从0到1部署多模态大模型 164
9.1 部署环境准备 164
9.2 部署流程 166
9.3 使用Flask框架进行API开发 168
9.4 使用Gradio框架进行Web页面开发 172
9.5 其他部署方法介绍 177
9.6 部署过程中常见的问题总结 180
第10章 多模态大模型的主要应用场景 184
10.1 多模态大模型的应用图谱 184
10.1.1 多模态大模型的30个基础应用 184
10.1.2 多模态大模型在六大领域中的应用 190
10.2 多模态大模型在金融领域中的应用 194
10.2.1 语音质检 195
10.2.2 智能顾问 197
10.3 多模态大模型在出行与物流领域中的应用 202
10.4 多模态大模型在电商领域中的应用 204
10.4.1 智能客服 204
10.4.2 智能试穿 206
10.5 多模态大模型在工业设计与生产领域中的应用 208
10.6 多模态大模型在医疗健康领域中的应用 211
10.7 多模态大模型在教育培训领域的应用 216
10.8 思考 217
第11章 用多模态大模型打造AI助理实战 219
11.1 应用背景 219
11.2 方法论介绍 220
11.2.1 思维链解决复杂的推理问题 220
11.2.2 思维树进一步提升推理能力 221
11.2.3 采用插值法解决长文本输入问题 221
11.3 工具和算法框架介绍 223
11.3.1 使用的工具 223
11.3.2 使用的算法框架 223
11.4 优化逻辑介绍 225
11.4.1 如何提高多轮对话能力 226
11.4.2 如何提高角色扮演能力 226
11.4.3 如何提高长文本阅读能力 227
11.5 多模态大模型的部署 228
11.6 多模态大模型的性能评估 229
11.6.1 综合性能评估 229
11.6.2 长文本阅读示例 230
11.6.3 多轮对话示例 231
11.6.4 角色扮演示例 234
11.6.5 LangChain框架赋能Ziya在限定域内问答示例 235
11.7 思考 236
第12章 多模态大模型在情绪识别领域的应用 237
12.1 应用背景和待解决的问题 237
12.2 方法论介绍 239
12.3 工具和算法框架介绍 244
12.3.1 算法的输入和输出 244
12.3.2 算法框架的整体构建流程 245
12.3.3 文本预训练任务 246
12.3.4 图像预训练任务 248
12.3.5 多模态预训练任务 249
12.3.6 算法的求解 250
12.3.7 算法的应用 251
12.4 优化逻辑介绍 252
12.5 部署流程 254
12.6 效果评测 255
12.6.1 评测数据集 255
12.6.2 评测指标 258
12.6.3 评测结果 258
12.7 思考 260
第13章 大模型在软件研发领域的实战案例与前沿探索 262
13.1 LLM在软件研发过程中的单点提效 263
13.1.1 基于GitHub Copilot的代码片段智能生成 263
13.1.2 基于GitHub Copilot X实现增强的代码片段智能生成 267
13.1.3 基于GitHub Copilot X实现对选中的代码的理解与解读 269
13.1.4 基于GitHub Copilot X的Pull Requests提效 270
13.1.5 基于LLM实现的“代码刷” 271
13.1.6 使用Copilot Voice实现语音驱动的代码开发 273
13.1.7 使用Copilot CLI实现命令行的自动生成 275
13.1.8 使用TestPilot实现单元测试用例的自动生成 276
13.1.9 更多的应用 278
13.2 代码大语言模型为软件研发带来的机遇与挑战 278
13.2.1 对于软件研发来说，什么变了 279
13.2.2 对于软件研发来说，什么没有变 279
13.3 在LLM时代，对软件研发的更多思考 284
13.3.1 思考1：替代的是“码农”，共生的是工程师 284
13.3.2 思考2：有利于控制研发团队规模，保持小团队的效率
优势 285
13.3.3 思考3：不可避免的“暗知识” 285
13.3.4 思考4：Prompt即代码，代码不再是代码 286
13.3.5 思考5：Prompt to Executable软件研发范式的可能性 287
13.4 思考 287

在这里插入图片描述