神经网络(Neural Network,NN)

神经网络是机器学习和深度学习的基础,它模仿生物神经元工作原理,通过训练数据进行学习。常见类型包括前馈网络、卷积网络和循环网络,应用于图像识别、自然语言处理等领域。神经网络通过输入层、隐藏层和输出层的加权和非线性变换进行预测,并通过反向传播优化参数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

什么是神经网络?

人工神经网络(artificial neural network,ANN),简称神经网络(neural network,NN)或类神经网络,是机器学习的子集,同时也是深度学习算法的核心。是一种模仿生物神经网络的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。

人工神经网络 (ANN) 由节点层组成,包含一个输入层、一个或多个隐藏层和一个输出层。 每个节点也称为一个人工神经元,它们连接到另一个节点,具有相关的权重和阈值。 如果任何单个节点的输出高于指定的阈值,那么会激活该节点,并将数据发送到网络的下一层。 否则,不会将数据传递到网络的下一层。

ANN.png

神经网络依靠训练数据来学习,并随时间推移提高自身准确性。 而一旦这些学习算法经过了调优,提高了准确性,它们就会成为计算机科学和人工智能领域的强大工具,使我们能够快速对数据进行分类和聚类。与由人类专家进行的人工识别相比,语音识别或图像识别任务可能只需要几分钟而不是数小时。

神经网络与神经元

一个神经元通常具有多个树突,主要用来接受传入信息;而轴突只有一条,轴突尾端有许多轴突末梢可以给其他多个神经元传递信息。轴突末梢跟其他神经元的树突产生连接,从而传递信号。这个连接的位置在生物学上叫做“突触”。
sjy.jpg

神经网络的最基本的构成元素是神经元(Neuron),也就是Kohonen的定义中的简单单元。如果某个神经元接收了足够多的神经递质(乙酰胆碱),那么其点位变会积累地足够高,从而超过某个阈值(Threshold)。超过这个阈值之后,这个神经元变会被激活,达到兴奋的状态,而后发送神经递质给其他的神经元。

一个简单的神经元模型如下图所示:

5_QE7YRNE1JF7ER0.png

数学公式表示为:

image.png

一个神经元的功能是求得输入向量与权向量的内积后,经一个非线性传递函数得到一个标量结果。

神经网络的类型

神经网络是一种广泛应用于机器学习和深度学习领域的算法模型,它有多种类型,每种类型具有不同的结构和应用。以下是一些常见的神经网络类型:

  • 前馈神经网络(Feedforward Neural Network):前馈神经网络是最基本的神经网络类型,信息在网络中单向传递,没有循环连接。它由输入层、若干个隐藏层和输出层组成,用于解决分类和回归问题。

  • 卷积神经网络(Convolutional Neural Network,CNN):卷积神经网络主要应用于图像和视觉任务,通过卷积层和池化层来提取图像特征。CNN能够有效处理空间结构的数据,并在图像分类、目标检测和图像生成等任务中表现出色。

  • 循环神经网络(Recurrent Neural Network,RNN):循环神经网络是一类具有循环连接的神经网络,主要用于处理序列数据,如自然语言处理、语音识别等。RNN具有记忆能力,可以捕捉序列中的上下文信息。

  • 长短时记忆网络(Long Short-Term Memory,LSTM):LSTM是一种特殊类型的循环神经网络,用于解决传统RNN中的梯度消失和梯度爆炸问题。它具有更好的长期依赖性建模能力,广泛应用于序列建模任务。

  • 生成对抗网络(Generative Adversarial Network,GAN):生成对抗网络由生成器和判别器组成,通过对抗训练的方式学习生成逼真的数据样本。GAN在图像生成、图像修复和文本生成等领域取得了显著的成果。

  • 自编码器(Autoencoder):自编码器是一种无监督学习的神经网络,用于数据的压缩和特征提取。它包含一个编码器和一个解码器,通过最小化重构误差来学习输入数据的低维表示。

以上仅列举了一些常见的神经网络类型,实际上还有许多其他变体和扩展,例如残差网络(Residual Network,ResNet)、变分自编码器(Variational Autoencoder,VAE)等。选择适合特定任务的神经网络类型需要根据问题的性质和数据的特点进行评估和决策。

人工神经网络如何运作

人工神经网络是一种受到生物神经系统启发的计算模型,它由大量的人工神经元(也称为节点或单元)组成,并通过连接权重来模拟神经元之间的相互作用。下面是一个房屋价格预测的示例:

ML Visuals.png

1. 将输入数据表示为特征向量

每个房屋可以由一个特征向量表示,其中每个特征对应一个影响因素的值。例如,假设我们有一个包含100个样本的数据集,每个样本的特征向量如下:

size  #bed  ZIP   Wealth
1500    3   12345   80000
2000    4   23456   90000
...

2. 定义神经网络的结构

假设我们选择一个具有一个或多个隐藏层的前馈神经网络。输入层的神经元数量取决于特征向量的维度(在这个例子中是4),输出层的神经元数量为1,因为我们要预测一个连续的房屋价格。

3. 初始化神经网络的权重和偏置项

这些参数是随机初始化的,然后通过训练过程进行优化。

4. 前向传播

我们将特征向量输入神经网络的输入层。每个神经元根据输入、权重和偏置项计算加权和,并将结果通过激活函数进行非线性变换。这样,信号逐层传递到输出层,最终得到一个连续的预测结果,表示该房屋的价格。

5. 衡量预测结果与真实房屋价格之间的差异

使用损失函数来衡量预测结果与真实房屋价格之间的差异例如,可以使用均方误差作为损失函数,以衡量预测值与真实值之间的差距。

6. 反向传播过程

我们计算损失函数对于网络中每个参数(权重和偏置项)的梯度。然后,使用梯度下降等优化算法,通过调整参数的值来最小化损失函数。这一过程将逐渐调整网络的参数,使网络能够更好地适应训练数据。

7. 重复进行前向传播和反向传播

重复进行前向传播和反向传播,直到达到预定的训练迭代次数或满足停止准则。在训练完成后,我们可以使用训练好的神经网络对新的房屋进行价格预测。

注意:为了训练和预测的准确性,可能需要对输入特征进行归一化或标准化处理,以便它们在相同的尺度范围内。

这是一个简单的示例,展示了神经网络在房屋价格预测问题中的运作过程。请注意,实际应用中可能会有更复杂的网络结构和更多的技术和技巧,以提高模型的性能和泛化能力。以下是一个使用Python编程语言和TensoFlow深度学习库来实现一个简单的神经网络进行房屋价格预测的示例代码:

import tensorflow as tf
import numpy as np

# 定义输入特征的维度
input_dim = 4

# 定义训练数据和标签
train_data = np.array([[1500, 3, 12345, 80000],
                       [2000, 4, 23456, 90000],
                       # 其他训练样本...
                       ], dtype=np.float32)
train_labels = np.array([[250000],
                         [300000],
                         # 其他训练标签...
                         ], dtype=np.float32)

# 创建模型
model = tf.keras.Sequential([
    tf.keras.layers.Dense(8, activation='relu', input_shape=(input_dim,)),  # 隐藏层
    tf.keras.layers.Dense(1)  # 输出层
])

# 定义损失函数和优化器
loss_fn = tf.keras.losses.MeanSquaredError()
optimizer = tf.keras.optimizers.SGD(learning_rate=0.01)

# 编译模型
model.compile(optimizer=optimizer, loss=loss_fn)

# 训练模型
num_epochs = 1000  # 训练迭代次数

model.fit(train_data, train_labels, epochs=num_epochs, verbose=0)

# 使用模型进行预测
test_data = np.array([[1800, 3, 23456, 85000],
                      [2200, 4, 34567, 95000],
                      # 其他测试样本...
                      ], dtype=np.float32)

predictions = model.predict(test_data)

# 打印预测结果
for i, pred in enumerate(predictions):
    print('Test sample {}: Predicted price: {:.2f}'.format(i+1, pred[0]))

神经网络的历史

神经网络的历史可以追溯到20世纪40年代和50年代。以下是神经网络发展的一些重要里程碑:

v2d08da478ac54d9735e7b3e67b4c76864_r.jpg

感知机模型(1957年)

由Frank Rosenblatt提出的感知机是最早的神经网络模型之一。它是一个基于神经元模型的二分类线性分类器,能够根据输入特征对样本进行分类。

多层感知机(1960年代-1970年代)

由于单层感知机的限制,Marvin Minsky和Seymour Papert在《Perceptrons》一书中指出了单层感知机的局限性。然而,在1980年代以前,由于计算能力和训练算法的限制,多层感知机的训练并不容易。

反向传播算法(1986年)

David Rumelhart、Geoffrey Hinton和Ronald Williams等人在1986年发表的论文中提出了反向传播算法,该算法使得多层感知机的训练成为可能。反向传播算法通过有效地计算梯度并将其传播回网络,可以根据训练数据调整网络的权重和偏置。

支持向量机(SVM)的兴起(1990年代)

在1990年代,支持向量机(SVM)成为了机器学习领域的热门方法。相对于神经网络,SVM具有更强的理论支持和较好的泛化能力,在一段时间内引起了广泛关注。

深度学习的复兴(2000年代以后)

随着计算能力的提升、数据量的增加和算法的改进,神经网络在2000年代以后经历了复兴。深度学习的兴起使得神经网络可以在更深的层次上建模,解决更复杂的问题。卷积神经网络(CNN)和循环神经网络(RNN)等变体被广泛应用于计算机视觉、自然语言处理和语音识别等领域,取得了许多突破性的成果。

深度学习的应用和发展(2010年代以后)

在2010年代以后,深度学习在各个领域取得了显著的进展。神经网络被广泛应用于图像识别、语音识别、自然语言处理、推荐系统等任务,并在很多方面超越了传统的机器学习方法。

总的来说,神经网络的发展经历了多个阶段,从最早的感知感机到多层感知机,再到反向传播算法的引入,这些里程碑都推动了神经网络的发展。而后,支持向量机的兴起暂时降低了神经网络的热度,但在2000年代以后,随着深度学习的复兴,神经网络再次成为主流。深度学习的发展使得神经网络可以构建更深层次的模型,解决更复杂的问题。

此外,大规模数据集的可用性和计算能力的提升也推动了神经网络的应用和发展。通过使用更多的数据来训练神经网络,可以提高模型的性能和泛化能力。同时,随着图形处理单元(GPU)和专用的神经网络加速器(如TPU)的出现,加速了神经网络的训练和推理过程。

现如今,神经网络已成为机器学习和人工智能领域最重要的技术之一。它在计算机视觉、自然语言处理、语音识别、推荐系统等领域取得了许多突破性的成果,并在许多实际应用中展现了强大的能力。随着技术的不断进步,神经网络的发展仍将持续,并为未来的人工智能提供更多的可能性。

书的目录 Contents Website viii Acknowledgments ix Notation xiii 1 Introduction 1 1.1 Who Should Read This Book? . . . . . . . . . . . . . . . . . . . . 8 1.2 Historical Trends in Deep Learning . . . . . . . . . . . . . . . . . 12 I Applied Math and Machine Learning Basics 27 2 Linear Algebra 29 2.1 Scalars, Vectors, Matrices and Tensors . . . . . . . . . . . . . . . 29 2.2 Multiplying Matrices and Vectors . . . . . . . . . . . . . . . . . . 32 2.3 Identity and Inverse Matrices . . . . . . . . . . . . . . . . . . . . 34 2.4 Linear Dependence and Span . . . . . . . . . . . . . . . . . . . . 35 2.5 Norms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.6 Special Kinds of Matrices and Vectors . . . . . . . . . . . . . . . 38 2.7 Eigendecomposition . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.8 Singular Value Decomposition . . . . . . . . . . . . . . . . . . . . 42 2.9 The Moore-Penrose Pseudoinverse . . . . . . . . . . . . . . . . . . 43 2.10 The Trace Operator . . . . . . . . . . . . . . . . . . . . . . . . . 44 2.11 The Determinant . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 2.12 Example: Principal Components Analysis . . . . . . . . . . . . . 45 3 Probability and Information Theory 51 3.1 Why Probability? . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 i CONTENTS 3.2 Random Variables . . . . . . . . . . . . . . . . . . . . . . . . . . 54 3.3 Probability Distributions . . . . . . . . . . . . . . . . . . . . . . . 54 3.4 Marginal Probability . . . . . . . . . . . . . . . . . . . . . . . . . 56 3.5 Conditional Probability . . . . . . . . . . . . . . . . . . . . . . . 57 3.6 The Chain Rule of Conditional Probabilities . . . . . . . . . . . . 57 3.7 Independence and Conditional Independence . . . . . . . . . . . . 58 3.8 Expectation, Variance and Covariance . . . . . . . . . . . . . . . 58 3.9 Common Probability Distributions . . . . . . . . . . . . . . . . . 60 3.10 Useful Properties of Common Functions . . . . . . . . . . . . . . 65 3.11 Bayes’ Rule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 3.12 Technical Details of Continuous Variables . . . . . . . . . . . . . 69 3.13 Information Theory . . . . . . . . . . . . . . . . . . . . . . . . . . 71 3.14 Structured Probabilistic Models . . . . . . . . . . . . . . . . . . . 73 4 Numerical Computation 78 4.1 Overflow and Underflow . . . . . . . . . . . . . . . . . . . . . . . 78 4.2 Poor Conditioning . . . . . . . . . . . . . . . . . . . . . . . . . . 80 4.3 Gradient-Based Optimization . . . . . . . . . . . . . . . . . . . . 80 4.4 Constrained Optimization . . . . . . . . . . . . . . . . . . . . . . 91 4.5 Example: Linear Least Squares . . . . . . . . . . . . . . . . . . . 94 5 Machine Learning Basics 96 5.1 Learning Algorithms . . . . . . . . . . . . . . . . . . . . . . . . . 97 5.2 Capacity, Overfitting and Underfitting . . . . . . . . . . . . . . . 108 5.3 Hyperparameters and Validation Sets . . . . . . . . . . . . . . . . 118 5.4 Estimators, Bias and Variance . . . . . . . . . . . . . . . . . . . . 120 5.5 Maximum Likelihood Estimation . . . . . . . . . . . . . . . . . . 129 5.6 Bayesian Statistics . . . . . . . . . . . . . . . . . . . . . . . . . . 133 5.7 Supervised Learning Algorithms . . . . . . . . . . . . . . . . . . . 137 5.8 Unsupervised Learning Algorithms . . . . . . . . . . . . . . . . . 142 5.9 Stochastic Gradient Descent . . . . . . . . . . . . . . . . . . . . . 149 5.10 Building a Machine Learning Algorithm . . . . . . . . . . . . . . 151 5.11 Challenges Motivating Deep Learning . . . . . . . . . . . . . . . . 152 II Deep Networks: Modern Practices 162 6 Deep Feedforward Networks 164 6.1 Example: Learning XOR . . . . . . . . . . . . . . . . . . . . . . . 167 6.2 Gradient-Based Learning . . . . . . . . . . . . . . . . . . . . . . . 172 ii CONTENTS 6.3 Hidden Units . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187 6.4 Architecture Design . . . . . . . . . . . . . . . . . . . . . . . . . . 193 6.5 Back-Propagation and Other Differentiation Algorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200 6.6 Historical Notes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220 7 Regularization for Deep Learning 224 7.1 Parameter Norm Penalties . . . . . . . . . . . . . . . . . . . . . . 226 7.2 Norm Penalties as Constrained Optimization . . . . . . . . . . . . 233 7.3 Regularization and Under-Constrained Problems . . . . . . . . . 235 7.4 Dataset Augmentation . . . . . . . . . . . . . . . . . . . . . . . . 236 7.5 Noise Robustness . . . . . . . . . . . . . . . . . . . . . . . . . . . 238 7.6 Semi-Supervised Learning . . . . . . . . . . . . . . . . . . . . . . 240 7.7 Multitask Learning . . . . . . . . . . . . . . . . . . . . . . . . . . 241 7.8 Early Stopping . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241 7.9 Parameter Tying and Parameter Sharing . . . . . . . . . . . . . . 249 7.10 Sparse Representations . . . . . . . . . . . . . . . . . . . . . . . . 251 7.11 Bagging and Other Ensemble Methods . . . . . . . . . . . . . . . 253 7.12 Dropout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255 7.13 Adversarial Training . . . . . . . . . . . . . . . . . . . . . . . . . 265 7.14 Tangent Distance, Tangent Prop and Manifold Tangent Classifier . . . . . . . . . . . . . . . . . . . . . . . . . . . 267 8 Optimization for Training Deep Models 271 8.1 How Learning Differs from Pure Optimization . . . . . . . . . . . 272 8.2 Challenges in Neural Network Optimization . . . . . . . . . . . . 279 8.3 Basic Algorithms . . . . . . . . . . . . . . . . . . . . . . . . . . . 290 8.4 Parameter Initialization Strategies . . . . . . . . . . . . . . . . . 296 8.5 Algorithms with Adaptive Learning Rates . . . . . . . . . . . . . 302 8.6 Approximate Second-Order Methods . . . . . . . . . . . . . . . . 307 8.7 Optimization Strategies and Meta-Algorithms . . . . . . . . . . . 313 9 Convolutional Networks 326 9.1 The Convolution Operation . . . . . . . . . . . . . . . . . . . . . 327 9.2 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329 9.3 Pooling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335 9.4 Convolution and Pooling as an Infinitely Strong Prior . . . . . . . 339 9.5 Variants of the Basic Convolution Function . . . . . . . . . . . . 342 9.6 Structured Outputs . . . . . . . . . . . . . . . . . . . . . . . . . . 352 9.7 Data Types . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354 iii CONTENTS 9.8 Efficient Convolution Algorithms . . . . . . . . . . . . . . . . . . 356 9.9 Random or Unsupervised Features . . . . . . . . . . . . . . . . . 356 9.10 The Neuroscientific Basis for Convolutional Networks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358 9.11 Convolutional Networks and the History of Deep Learning . . . . 365 10 Sequence Modeling: Recurrent and Recursive Nets 367 10.1 Unfolding Computational Graphs . . . . . . . . . . . . . . . . . . 369 10.2 Recurrent Neural Networks . . . . . . . . . . . . . . . . . . . . . 372 10.3 Bidirectional RNNs . . . . . . . . . . . . . . . . . . . . . . . . . . 388 10.4 Encoder-Decoder Sequence-to-Sequence Architectures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 390 10.5 Deep Recurrent Networks . . . . . . . . . . . . . . . . . . . . . . 392 10.6 Recursive Neural Networks . . . . . . . . . . . . . . . . . . . . . . 394 10.7 The Challenge of Long-Term Dependencies . . . . . . . . . . . . . 396 10.8 Echo State Networks . . . . . . . . . . . . . . . . . . . . . . . . . 399 10.9 Leaky Units and Other Strategies for Multiple Time Scales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 402 10.10 The Long Short-Term Memory and Other Gated RNNs . . . . . . 404 10.11 Optimization for Long-Term Dependencies . . . . . . . . . . . . . 408 10.12 Explicit Memory . . . . . . . . . . . . . . . . . . . . . . . . . . . 412 11 Practical Methodology 416 11.1 Performance Metrics . . . . . . . . . . . . . . . . . . . . . . . . . 417 11.2 Default Baseline Models . . . . . . . . . . . . . . . . . . . . . . . 420 11.3 Determining Whether to Gather More Data . . . . . . . . . . . . 421 11.4 Selecting Hyperparameters . . . . . . . . . . . . . . . . . . . . . . 422 11.5 Debugging Strategies . . . . . . . . . . . . . . . . . . . . . . . . . 431 11.6 Example: Multi-Digit Number Recognition . . . . . . . . . . . . . 435 12 Applications 438 12.1 Large-Scale Deep Learning . . . . . . . . . . . . . . . . . . . . . . 438 12.2 Computer Vision . . . . . . . . . . . . . . . . . . . . . . . . . . . 447 12.3 Speech Recognition . . . . . . . . . . . . . . . . . . . . . . . . . . 453 12.4 Natural Language Processing . . . . . . . . . . . . . . . . . . . . 456 12.5 Other Applications . . . . . . . . . . . . . . . . . . . . . . . . . . 473 iv CONTENTS III Deep Learning Research 482 13 Linear Factor Models 485 13.1 Probabilistic PCA and Factor Analysis . . . . . . . . . . . . . . . 486 13.2 Independent Component Analysis (ICA) . . . . . . . . . . . . . . 487 13.3 Slow Feature Analysis . . . . . . . . . . . . . . . . . . . . . . . . 489 13.4 Sparse Coding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 492 13.5 Manifold Interpretation of PCA . . . . . . . . . . . . . . . . . . . 496 14 Autoencoders 499 14.1 Undercomplete Autoencoders . . . . . . . . . . . . . . . . . . . . 500 14.2 Regularized Autoencoders . . . . . . . . . . . . . . . . . . . . . . 501 14.3 Representational Power, Layer Size and Depth . . . . . . . . . . . 505 14.4 Stochastic Encoders and Decoders . . . . . . . . . . . . . . . . . . 506 14.5 Denoising Autoencoders . . . . . . . . . . . . . . . . . . . . . . . 507 14.6 Learning Manifolds with Autoencoders . . . . . . . . . . . . . . . 513 14.7 Contractive Autoencoders . . . . . . . . . . . . . . . . . . . . . . 518 14.8 Predictive Sparse Decomposition . . . . . . . . . . . . . . . . . . 521 14.9 Applications of Autoencoders . . . . . . . . . . . . . . . . . . . . 522 15 Representation Learning 524 15.1 Greedy Layer-Wise Unsupervised Pretraining . . . . . . . . . . . 526 15.2 Transfer Learning and Domain Adaptation . . . . . . . . . . . . . 534 15.3 Semi-Supervised Disentangling of Causal Factors . . . . . . . . . 539 15.4 Distributed Representation . . . . . . . . . . . . . . . . . . . . . . 544 15.5 Exponential Gains from Depth . . . . . . . . . . . . . . . . . . . 550 15.6 Providing Clues to Discover Underlying Causes . . . . . . . . . . 552 16 Structured Probabilistic Models for Deep Learning 555 16.1 The Challenge of Unstructured Modeling . . . . . . . . . . . . . . 556 16.2 Using Graphs to Describe Model Structure . . . . . . . . . . . . . 560 16.3 Sampling from Graphical Models . . . . . . . . . . . . . . . . . . 577 16.4 Advantages of Structured Modeling . . . . . . . . . . . . . . . . . 579 16.5 Learning about Dependencies . . . . . . . . . . . . . . . . . . . . 579 16.6 Inference and Approximate Inference . . . . . . . . . . . . . . . . 580 16.7 The Deep Learning Approach to Structured Probabilistic Models . . . . . . . . . . . . . . . . . . . . . . . . . 581 17 Monte Carlo Methods 587 17.1 Sampling and Monte Carlo Methods . . . . . . . . . . . . . . . . 587 v CONTENTS 17.2 Importance Sampling . . . . . . . . . . . . . . . . . . . . . . . . . 589 17.3 Markov Chain Monte Carlo Methods . . . . . . . . . . . . . . . . 592 17.4 Gibbs Sampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . 596 17.5 The Challenge of Mixing between Separated Modes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 597 18 Confronting the Partition Function 603 18.1 The Log-Likelihood Gradient . . . . . . . . . . . . . . . . . . . . 604 18.2 Stochastic Maximum Likelihood and Contrastive Divergence . . . 605 18.3 Pseudolikelihood . . . . . . . . . . . . . . . . . . . . . . . . . . . 613 18.4 Score Matching and Ratio Matching . . . . . . . . . . . . . . . . 615 18.5 Denoising Score Matching . . . . . . . . . . . . . . . . . . . . . . 617 18.6 Noise-Contrastive Estimation . . . . . . . . . . . . . . . . . . . . 618 18.7 Estimating the Partition Function . . . . . . . . . . . . . . . . . . 621 19 Approximate Inference 629 19.1 Inference as Optimization . . . . . . . . . . . . . . . . . . . . . . 631 19.2 Expectation Maximization . . . . . . . . . . . . . . . . . . . . . . 632 19.3 MAP Inference and Sparse Coding . . . . . . . . . . . . . . . . . 633 19.4 Variational Inference and Learning . . . . . . . . . . . . . . . . . 636 19.5 Learned Approximate Inference . . . . . . . . . . . . . . . . . . . 648 20 Deep Generative Models 651 20.1 Boltzmann Machines . . . . . . . . . . . . . . . . . . . . . . . . . 651 20.2 Restricted Boltzmann Machines . . . . . . . . . . . . . . . . . . . 653 20.3 Deep Belief Networks . . . . . . . . . . . . . . . . . . . . . . . . . 657 20.4 Deep Boltzmann Machines . . . . . . . . . . . . . . . . . . . . . . 660 20.5 Boltzmann Machines for Real-Valued Data . . . . . . . . . . . . . 673 20.6 Convolutional Boltzmann Machines . . . . . . . . . . . . . . . . . 679 20.7 Boltzmann Machines for Structured or Sequential Outputs . . . . 681 20.8 Other Boltzmann Machines . . . . . . . . . . . . . . . . . . . . . 683 20.9 Back-Propagation through Random Operations . . . . . . . . . . 684 20.10 Directed Generative Nets . . . . . . . . . . . . . . . . . . . . . . . 688 20.11 Drawing Samples from Autoencoders . . . . . . . . . . . . . . . . 707 20.12 Generative Stochastic Networks . . . . . . . . . . . . . . . . . . . 710 20.13 Other Generation Schemes . . . . . . . . . . . . . . . . . . . . . . 712 20.14 Evaluating Generative Models . . . . . . . . . . . . . . . . . . . . 713 20.15 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 716 Bibliography 717 vi CONTENTS Index 774
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值