神经网络与深度学习课程总结四

然而，像GANs这样的生成模型经过训练，可以用概率模型来描述数据集是如何生成的。通过从生成模型中采样，您可以生成新数据。判别模型用于监督学习，而生成模型通常用于未标记的数据集，可以看作是一种无监督学习。了输出新的样本，生成模型通常考虑一个随机元素影响模型生成的样本。用于驱动生成器的随机样本来自一个隐空间，其中的向量代表了生成样本的一种压缩形式。与判别性模型不同，生成性模型学习输入数据x的概率P(x)，通过掌握输入数据的分布，它们能够生成新的数据实例。

2.2 GAN架构

生成式对抗网络由两个神经网络组成，即生成器和判别器。生成器的作用是估计真实样本的概率分布，以便提供与真实数据相似的生成样本。判别器被训练来估计一个给定样本来自真实数据而不是由生成器提供的概率。这些结构被称为生成式对抗网络，因为生成器和鉴别器被训练成相互竞争：生成器试图更好地欺骗鉴别器，而鉴别器则试图更好地识别生成的样本。

为了理解GAN训练的工作原理，考虑一个由二维样本(𝑥1， 𝑥2)组成的数据集的简单例子，在0到2𝜋的区间内， 𝑥₂ = sin(𝑥1) ，如下图所示。

正如你所看到的，这个数据集由位于正弦曲线上的点(𝑥1， 𝑥2)组成，有一个非常特殊的分布。一个生成类似于数据集样本的GAN的整体结构。

生成器 𝐺 输入为隐空间的随机数据，它的作用是生成类似于真实样本的数据。在这个例子中，你有一个二维的隐空间，因此生成器被输入随机的(𝑧1， 𝑧2)对，并对它们进行转换，使它们与真实样本相似。
𝐺的结构可以是任意的，可使用多层感知器（MLP）、卷积神经网络（CNN）或任何其他结构，只要输入和输出的尺寸与隐空间和真实数据的维数相匹配
鉴别器𝐷接收来自训练数据集的真实样本或G提供的生成样本,其作用是估计输入属于真实数据集的概率。输入来自真实样本时输出1，来自生成样本时输出0。
鉴别器𝐷 同样可选择任意的神经网络结构。在本例中，输入是二维的，输出
可以是从0到1的标量。
GAN训练过程由两人minimax博弈组成，其中D用于最小化真实样本和生成样本之间的识别误差， G用于最大化D出错的概率。虽然包含真实数据的数据集没有标记，但D和G的训练过程是以有监督的方式执行的
在训练的每个步骤中， 𝐷和𝐺都会更新其参数。在最初的GAN方案中， 𝐷的参数被更新𝑘次，而𝐺的参数对于每个训练步骤只更新一次。本例中，为了使训练更简单，考虑𝑘等于1。
为了训练𝐷，在每次迭代中，将从训练数据中获取的真实样本标记为1，将提供的一些生成样本标记为0。这样，可以使用传统的监督训练框架来更新𝐷的参数，以最小化损失函数

3 Transformer

3.1 定义

Transformer是什么？将Transformer模型看成是一个黑箱操作。在机器翻译中，就是输入一种语言，输出另一种语言。

Transformer由编码组件、解码组件和它们之间的连接组成。

3.2 组件部分

3.2.1 编码器

编码组件部分由6个编码器（encoder）叠在一起构成。解码组件部分也是由相同数量的解码器（decoder）组成的。所有的编码器在结构上都是相同的，但它们没有共享参数。每个解码器都可以分解成两个子层.

3.2.2 解码器

解码器中也有编码器的自注意力层和前馈层。除此之外，这两个层之间还有一个注意力层，用来关注输入句子的相关部分

3.3 编码

3.3.1 词嵌入

在NLP中，将每个输入单词通过词嵌入算法转换为词向量。每个单词都被嵌入为512维的向量，我们使用方框格子来表示这些向量。

3.3.2 编码

编码器接收向量列表作为输入，接着将向量列表中的向量传递到自注意力层进行处理，然后传递到前馈神经网络层中，将输出结果传递到下一个编码器中。

3.4 注意力机制

3.4.1 如何使用向量计算注意力

查询、键与值向量：计算自注意力的第一步就是从每个编码器的输入向量（每个单词的词向量）中生成三个向量。也就是说对于每个单词，我们创造一个查询向量、一个键向量和一个值向量。这三个向量是通过词嵌入与三个权重矩阵后相乘创建的。计算自注意力的第二步是计算得分。为这个例子中的第一个词“Thinking”计算自注意力向量，需要拿输入句子中的每个单词对“Thinking”打分。这些分数决定了在编码单词“Thinking”的过程中有多重视句子的其它部分。第五步是将每个值向量乘以softmax分数(为了准备之后求和)。这里的直觉是希望关注语义上相关的单词，并弱化不相关的单词(例如，让它们乘以0.001这样的小数)。

3.4.2 多头注意力机制

增加 “多头”注意力机制，在两方面提高了注意力层性能，扩展了模型专注于不同位置的能力。，给出了注意力层的多个“表示子空间”。需八次不同的权重矩阵运算，我们就会得到八个不同的Z矩阵。

3.5 训练与输出

3.5.1 模型训练

单词翻译：比如说我们正在训练模型——把“merci”翻译为“thanks”。这意味着我们想要一个表示单词“thanks”概率分布的输出。但是因为这个模型还没被训练好，所以不太可能现在就出现这个结果。

句子输出：输入“je suis étudiant”

4 NeRF

4.1 三维重构网络

NeRF（Neural Radiance Fields）最早在2020年ECCV会议上发表，作为Best Paper，其将隐式表达推上了一个新的高度，仅用 2D 的 posed images 作为监督，即可表示复杂的三维场景。 NeRF迅速发展起来，被应用到多个技术方向上，例如新视点合成、三维重建等等，并取得非常好的效果.NeRF其输入稀疏的多角度带pose的图像训练得到一个神经辐射场模型，根据这个模型可以渲染出任意视角下的清晰的照片，也可以简要概括为用一个MLP神经网络去隐式地学习一个三维场景.