生成式深度学习(第二版)-译文-序

Garry1248

已于 2023-12-07 08:59:20 修改

阅读量163

点赞数

分类专栏：生成式深度学习文章标签：深度学习人工智能 AIGC

于 2023-10-09 14:42:51 首次发布

本文链接：https://blog.csdn.net/GarryWang1248/article/details/133700038

版权

生成式深度学习专栏收录该内容

19 篇文章 13 订阅

订阅专栏

凡我不能创造的，我不能理解。— 理查德·费曼

生成式AI是我们这个时代最具革命性的技术之一，正在改变我们和机器交互的方式。而它变革我们生活、工作以及娱乐的巨大潜力，也日益成为无数访谈、辩论和预测的主题。但是，如果这种强大的技术拥有比我们想象更强大的潜力，又将如何呢？生成式AI的未来也许比我们所能想象的更令人兴奋……

很早以前，我们就在寻求机会，来创造原创性、美观的创造物。对于早期的人类而言，展示的形式是岩洞里的壁画，使用精心布置的颜料来描述野生动物或者抽象的模式。浪漫主义时代让我们拥有了柴可夫斯基交响曲，它具有通过声波方式激发人类胜利和悲剧情感的能力，并交织在一起形成美好的旋律和协奏。在近代，人们会在半夜拥到书店去购买虚构的小说，因为文字的组合创造了神奇的叙事，驱动人们去翻开书页，探寻英雄们的故事。

因此，无怪乎人类开始发出创造的终极问题：我们到底是否能创造某些东西，它本身就具备创造性。

这是生成式AI所要解答的问题。随着近期技术的发展，我们已经能够制造一些机器，它们可以按照给定的风格创造画作，创作与长文本结构一致的文本段落，谱好听的旋律，并为复杂游戏制定争胜策略。这是关于创造性革命的开端，我们别无选择，只能去探寻创造性的机器，并最终触及其核心命题，创造对于人类到底意味着什么？

简而言之，再没有比现在更好的时机去开启生成式AI的学习了—让我们开始吧！

目标及方法

本书对于生成式AI不做任何预备知识的假设。我们将从零开始构建所有关键概念，构建的方式将尽可能是直觉式的，容易理解的。因此，不用担心自己没有任何关于生成式AI的知识，你来对地方了！

本书不仅仅只覆盖当前流行的技术，而是定位于生成式建模的完整导引，尝试覆盖诸多的模型方法。客观来讲，没有任何单一的技术比其他技术绝对优或者劣—实际上，很多经典的模型都混合了生成式建模经典思想的不同方法。因此，我们有必要保持对生成式AI全领域方法的关注，而不仅仅去关注某一种特定的技术。有一点是确定的: 生成式AI正在快速发展，你永远不知道下一个突破性技术将从哪里冒出来！

谨记上面这点，我将采用的方法是，告诉你如何从你自己的数据训练你自己的生成式模型，而非依赖于某种现成的预训练模型。尽管，现在有很多非常好的开源生成式模型，可以直接从网上下载，只需要几行代码就可以运行，这本书的目的在于更深的挖掘模型的解构，并从第一性原则 (译者注: 第一性原则是指不能再进一步分解的基本原则或真理。第一原则思维是指深入挖掘,直到你发现问题的根本所在) 出发来进行设计。因此，通过本书，你可以获得关于生成式AI模型如何工作的完整理解，并且通过Python和Keras从零开始构建每个例子的代码。

总结一下，本书可以被认为是当前生成式AI的全景地图，不仅包括理论，也包含实际应用，以及文献中关键模型的可工作示例。我们会逐步的核验代码，以搞清楚代码如何实现了其底层的技术。本书既可以从头到尾阅读，也可以仅仅作为一本参考书。无论如何，我希望你能从书中受益，并享受阅读的过程！

提示: 在本书中，你会读到短的，寓言式的故事，以帮助解释一些模型的机理。我相信，教授一门抽象理论最好的办法是在深入其技术解释之前，先将其转化为不那么抽象的事物，比如一则故事。故事和模型解释事实上是同一机理的两种不同解释—你最终将发现，在学习每个模型技术细节的过程中，参考其相关故事将很有用。

前置要求

本书假定读者有Python编程经验。如果你对Python不熟悉，可以通过LearnPython.org进行学习，上面有很多免费的在线资源，可以帮助你掌握运行本书代码所必须得Python知识。

另外，因为一些模型使用数学表示进行描述，因此，对线性代数(如矩阵乘法)和通用概率论的扎实理解将大有帮助。一个有用的资源是Deisenroth等的教材《Mathematics for Machine Learning》(剑桥大学出版社)，该书是可以免费获取的。

本书不对生成式建模进行任何预备知识的假设 (我们在第一章会详细解释关键概念)，也不需要对TensorFlow和Keras有了解(在第2章我们会介绍这些库)。

学习路线

本书分为三个部分:

第一部分: 生成式建模和深度学习的一般性介绍，这里我们将探索本书后续章节将涉及的核心概念:

第一章，生成式建模，我们将定义生成式建模，并通过一个简单示例来理解生成式模型的核心概念。同时，我们将给出生成式模型家族的分类。
第二章，深度学习，我们通过构建第一个基于Keras的多层感知机示例开始深度学习和神经网络的探索。我们进一步的，将引入卷积层和其它改进，来观察性能上的差异。

第二部分: 覆盖构建生成式模型的六大关键技术，每项技术都将提供实际的示例：

第三章，变分自编码器，我们研究VAE，并一起看看如何利用VAE生成人脸图像，并在模型的隐空间中进行人脸的变形。
第四章，生成对抗网络，我们探索GAN在图像生成上的应用，包括深度卷积GAN，条件GAN，以及其他的一些关于GAN的改进，如Wasserstein GAN (可以使训练过程更为稳定)。
第五章，自回归模型，我们将注意力转到自回归模型，以RNN开始简单介绍，比如应用于文本生成的 long short-term memory networks (LSTMs)，应用于图像生成的PixelCNN。
第六章，规范流模型，我们关注该技术的理论探索，以及通过一个实际的例子来了解如何构建一个可以生成图像的RealNVP模型。
第七章，基于能量的模型，我们覆盖基于能量的模型，包括如何使用对比离散(contrastive divergence)来进行训练，以及如何利用Langevin dynamics 来进行采样。
第八章，扩散模型，我们将深入探索该如何构建扩散模型，这项技术是很多经典图像生成模型的基础(如DALL.E 2和Stable Diffusion)。

最后，在第三部分，我们利用前面打下的基础，来探索经典模型的内在机理，以用于图像生成，写作，谱曲，以及基于模型的强化学习：

第九章，Transformers，我们将探索 StyleGAN模型的血统和技术细节，以及用于图像生成的其他GAN模型，例如VQ-GAN。
第十章，高级GANs，我们讨论transformer架构，包括构建一个用于文本生成的我们自己的GPT。
第十一章，音乐生成，包括如何使用音乐数据，以及Transformer 及MuseGAN等相关技术的应用。
第十二章，世界模型，我们将看到生成式模型如何用于强化学习的上下文。
第十三章，多模态模型，我们解释四类经典的多模态模型，每种都至少包含了不止一类的模态数据。包括用于文生图的DALL.E2，Imagen，Stable Diffusion，以及一个典型的视觉语言模型Flamingo。
第十四章，结论，我们回顾一下目前生成式AI的关键里程碑，并讨论生成式AI在不久的将来变革我们日常生活的方式。

Garry1248

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
生成式深度学习(第二版)-译文-序

凡我不能创造的，我不能理解。— 理查德·费曼生成式AI是我们这个时代最具革命性的技术之一，正在改变我们和机器交互的方式。而它变革我们生活、工作以及娱乐的巨大潜力，也日益成为无数访谈、辩论和预测的主题。但是，如果这种强大的技术拥有比我们想象更强大的潜力，又将如何呢？生成式AI的未来也许比我们所能想象的更令人兴奋……很早以前，我们就在寻求机会，来创造原创性、美观的创造物。对于早期的人类而言，展示的形式是岩洞里的壁画，使用精心布置的颜料来描述野生动物或者抽象的模式。
复制链接

扫一扫

专栏目录