生成式深度学习(第二版)-译文-序

凡我不能创造的,我不能理解。— 理查德·费曼

生成式AI是我们这个时代最具革命性的技术之一,正在改变我们和机器交互的方式。而它变革我们生活、工作以及娱乐的巨大潜力,也日益成为无数访谈、辩论和预测的主题。但是,如果这种强大的技术拥有比我们想象更强大的潜力,又将如何呢?生成式AI的未来也许比我们所能想象的更令人兴奋……

很早以前,我们就在寻求机会,来创造原创性、美观的创造物。对于早期的人类而言,展示的形式是岩洞里的壁画,使用精心布置的颜料来描述野生动物或者抽象的模式。浪漫主义时代让我们拥有了柴可夫斯基交响曲,它具有通过声波方式激发人类胜利和悲剧情感的能力,并交织在一起形成美好的旋律和协奏。在近代,人们会在半夜拥到书店去购买虚构的小说,因为文字的组合创造了神奇的叙事,驱动人们去翻开书页,探寻英雄们的故事。

因此,无怪乎人类开始发出创造的终极问题:我们到底是否能创造某些东西,它本身就具备创造性。

这是生成式AI所要解答的问题。随着近期技术的发展,我们已经能够制造一些机器,它们可以按照给定的风格创造画作,创作与长文本结构一致的文本段落,谱好听的旋律,并为复杂游戏制定争胜策略。这是关于创造性革命的开端,我们别无选择,只能去探寻创造性的机器,并最终触及其核心命题,创造对于人类到底意味着什么?

简而言之,再没有比现在更好的时机去开启生成式AI的学习了—让我们开始吧!

目标及方法

本书对于生成式AI不做任何预备知识的假设。我们将从零开始构建所有关键概念,构建的方式将尽可能是直觉式的,容易理解的。因此,不用担心自己没有任何关于生成式AI的知识,你来对地方了!

本书不仅仅只覆盖当前流行的技术,而是定位于生成式建模的完整导引,尝试覆盖诸多的模型方法。客观来讲,没有任何单一的技术比其他技术绝对优或者劣—实际上,很多经典的模型都混合了生成式建模经典思想的不同方法。因此,我们有必要保持对生成式AI全领域方法的关注,而不仅仅去关注某一种特定的技术。有一点是确定的: 生成式AI正在快速发展,你永远 不知道下一个突破性技术将从哪里冒出来!

谨记上面这点,我将采用的方法是,告诉你如何从你自己的数据训练你自己的生成式模型,而非依赖于某种现成的预训练模型。尽管,现在有很多非常好的开源生成式模型,可以直接从网上下载,只需要几行代码就可以运行,这本书的目的在于更深的挖掘模型的解构,并从第一性原则 (译者注: 第一性原则是指不能再进一步分解的基本原则或真理。第一原则思维是指深入挖掘,直到你发现问题的根本所在) 出发来进行设计。因此,通过本书,你可以获得关于生成式AI模型如何工作的完整理解,并且通过Python和Keras从零开始构建每个例子的代码。

总结一下,本书可以被认为是当前生成式AI的全景地图,不仅包括理论,也包含实际应用,以及文献中关键模型的可工作示例。我们会逐步的核验代码,以搞清楚代码如何实现了其底层的技术。本书既可以从头到尾阅读,也可以仅仅作为一本参考书。无论如何,我希望你能从书中受益,并享受阅读的过程!

提示: 在本书中,你会读到短的,寓言式的故事,以帮助解释一些模型的机理。我相信,教授一门抽象理论最好的办法是在深入其技术解释之前,先将其转化为不那么抽象的事物,比如一则故事。故事和模型解释事实上是同一机理的两种不同解释—你最终将发现,在学习每个模型技术细节的过程中,参考其相关故事将很有用。

前置要求

本书假定读者有Python编程经验。如果你对Python不熟悉,可以通过LearnPython.org进行学习,上面有很多免费的在线资源,可以帮助你掌握运行本书代码所必须得Python知识。

另外,因为一些模型使用数学表示进行描述,因此,对线性代数(如 矩阵乘法)和通用概率论的扎实理解将大有帮助。一个有用的资源是Deisenroth等的教材《Mathematics for Machine Learning》(剑桥大学出版社),该书是可以免费获取的。

本书不对生成式建模进行任何预备知识的假设 (我们在第一章会详细解释关键概念),也不需要对TensorFlow和Keras有了解(在第2章我们会介绍这些库)。

学习路线

本书分为三个部分:

第一部分: 生成式建模和深度学习的一般性介绍,这里我们将探索本书后续章节将涉及的核心概念:

  • 第一章,生成式建模,我们将定义生成式建模,并通过一个简单示例来理解生成式模型的核心概念。同时,我们将给出生成式模型家族的分类。
  • 第二章,深度学习,我们通过构建第一个基于Keras的多层感知机示例开始深度学习和神经网络的探索。我们进一步的,将引入卷积层和其它改进,来观察性能上的差异。

第二部分: 覆盖构建生成式模型的六大关键技术,每项技术都将提供实际的示例:

  • 第三章,变分自编码器,我们研究VAE,并一起看看如何利用VAE生成人脸图像,并在模型的隐空间中进行人脸的变形。
  • 第四章,生成对抗网络,我们探索GAN在图像生成上的应用,包括深度卷积GAN,条件GAN,以及其他的一些关于GAN的改进,如Wasserstein GAN (可以使训练过程更为稳定)。
  • 第五章,自回归模型,我们将注意力转到自回归模型,以RNN开始简单介绍,比如应用于文本生成的 long short-term memory networks (LSTMs),应用于图像生成的PixelCNN。
  • 第六章,规范流模型,我们关注该技术的理论探索,以及通过一个实际的例子来了解如何构建一个可以生成图像的RealNVP模型。
  • 第七章,基于能量的模型,我们覆盖基于能量的模型,包括如何使用对比离散(contrastive divergence)来进行训练,以及如何利用Langevin dynamics 来进行采样。
  • 第八章,扩散模型,我们将深入探索该如何构建扩散模型,这项技术是很多经典图像生成模型的基础(如DALL.E 2和Stable Diffusion)。

最后,在第三部分,我们利用前面打下的基础,来探索经典模型的内在机理,以用于图像生成,写作,谱曲,以及基于模型的强化学习:

  • 第九章,Transformers,我们将探索 StyleGAN模型的血统和技术细节,以及用于图像生成的其他GAN模型,例如VQ-GAN。
  • 第十章,高级GANs,我们讨论transformer架构,包括构建一个用于文本生成的我们自己的GPT。
  • 第十一章,音乐生成,包括如何使用音乐数据,以及Transformer 及MuseGAN等相关技术的应用。
  • 第十二章,世界模型,我们将看到生成式模型如何用于强化学习的上下文。
  • 第十三章,多模态模型,我们解释四类经典的多模态模型,每种都至少包含了不止一类的模态数据。包括用于文生图的DALL.E2,Imagen,Stable Diffusion,以及一个典型的视觉语言模型Flamingo。
  • 第十四章,结论,我们回顾一下目前生成式AI的关键里程碑,并讨论生成式AI在不久的将来变革我们日常生活的方式。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值