python 深度学习框架 Chainer 介绍


Posted by 徐志平 on December 14, 2017

这里是 Chainer 教程的第一部分。 在此部分中,您将学习如下内容:

  • 现行框架的优缺点以及我们为什么开发 Chainer
  • 前向以及反向计算的简单的例子
  • 连接的使用以及梯度计算
  • chains 的构建(即. 大多数框架所指的“模型”)
  • 参数优化
  • 连接和优化器的串行化


  • 计算一些算式的梯度
  • 用 Chainer 写一个多层感知器


正如前文所述, Chainer 是一个柔性的神经网络框架。我们的主要目标就是柔性,使得我们能够简单直观的写出复杂的网络。

当下已有的深度学习框架使用的是“定义后运行”机制。即意味着,首先定义并且固化一个网络,再周而复始地馈入小批量数据进行训练。由于网络是在任何前向、反向计算前静态定义的,所有的逻辑作为数据必须事先嵌入网络中。 意味着,在诸如Caffe这样的框架中通过声明的方法定义网络结构。(注:可以使用torch.nn, 基于 Theano框架, 以及 TensorFlow 的命令语句定义一个静态网络)


Chainer 对应地采用了一种叫做 “边定义边运行” 的机制, 即, 网络可以在实际进行前向计算的时候同时被定义。 更加准确的说, Chainer 存储的是计算的历史结果而不是计算逻辑。这个策略使我们能够充分利用Python中编程逻辑的力量。例如,Chainer不需要任何魔法就可以将条件和循环引入到网络定义中。 边定义边运行是Chainer的核心概念。 我们将在本教程中展示如何动态定义网络。


Chainer 将网络表示为计算图上的执行路径。计算图是一系列函数应用,因此它可以用多个Function对象来描述。当这个Function是一个神经网络层时,功能的参数将通过训练来更新。因此,该函数需要在内部保留可训练的参数,因此Chainer具有Link类,它可以在类的对象上保存可训练参数。在Link对象中执行的函数的参数被表示为Variable对象。 简言之,LinkFunction之间的区别在于它是否包含可训练参数。 神经网络模型通常被描述为一系列LinkFunction



import numpy as np
import chainer
from chainer import cuda, Function, gradient_check, report, training, utils, Variable
from chainer import datasets, iterators, optimizers, serializers
from chainer import Link, Chain, ChainList
import chainer.functions as F
import chainer.links as L
from import extensions




x_data = np.array([5], dtype=np.float32)
x = Variable(x_data)

Variable 对象具有基本的算术运算符。为了计算 y=x2−2x+1y=x2−2x+1, 只需写:

y = x**2 - 2 * x + 1

array([ 16.], dtype=float32)




array([ 8.], dtype=float32)


z = 2*x
y = x**2 - z + 1
array([-1.], dtype=float32)


z = 2*x
y = x**2 - z + 1
z.grad is None

所有这些计算都很容易推广到多元素数组输入。请注意,如果我们想从一个包含多元素数组的变量开始向后计算,我们必须手动设置初始错误。 因为当一个变量的size(这意味着数组中元素的个数)是1时,它被认为是一个表示损失值的变量对象,所以变量的grad属性被自动填充为1。 另一方面,当一个变量的大小大于1时,grad属性保持为None,并且在运行backward()之前需要明确地设置初始错误。这可以简单地通过设置输出变量的grad属性来完成,如下所示:

x = Variable(np.array([[1, 2, 3], [4, 5, 6]], dtype=np.float32))
y = x**2 - 2*x + 1
y.grad = np.ones((2, 3), dtype=np.float32)
array([[  0.,   2.,   4.],
       [  6.,   8.,  10.]], dtype=float32)





最经常使用的连接之一是Linear 连接(也称为完全连接层或仿射变换)。它代表一个数学函数 f(x)=Wx+bf(x)=Wx+b ,其中W为矩阵和b 为矢量参数。这个连接对应于linear(),它接受xWb 作为参数。从三维空间到二维空间的线性连接由以下行定义:

f = L.Linear(3, 2)


array([[ 0.19792122,  0.29951876, -0.31833425],
       [-0.59501284, -0.65519476, -0.00605371]], dtype=float32)
array([ 0.,  0.], dtype=float32)

Linear 连接的一个实例就像一个通常的函数:

x = Variable(np.array([[1, 2, 3], [4, 5, 6]], dtype=np.float32))
y = f(x)
array([[-0.15804404, -1.9235636 ],
       [ 0.37927318, -5.69234705]], dtype=float32)



g = L.Linear(2)

如果我们输入一个小批量的形状为(N,M),则输入维数将被推断为M,这意味着g.W将是2×M矩阵。 请注意,它的参数在第一个小批处理中以懒惰的方式初始化。因此,如果没有数据放入连接,则f不具有W属性。


x = Variable(np.array([[1, 2, 3], [4, 5, 6]], dtype=np.float32))
g = L.Linear(2)
variable([[-2.64461255,  2.90179563],
          [-6.81166267,  4.94405651]])
g.grad = np.ones((2, 2), dtype=np.float32)

基于 chain 写一个模型


l1 = L.Linear(4, 3)
l2 = L.Linear(3, 2)

def my_forward(x):
    h = l1(x)
    return l2(h)


class MyProc(object):
    def __init__(self):
        self.l1 = L.Linear(4, 3)
        self.l2 = L.Linear(3, 2)

    def forward(self, x):
        h = self.l1(x)
        return self.l2(h)

为了使其更加可重用,我们希望支持参数管理,CPU / GPU迁移,强大而灵活的保存/加载功能等。这些功能都由Chainer中的Chain类支持。那么,我们要做的就是将上面的类定义为 Chain 的子类:

class MyChain(Chain):
    def __init__(self):
        super(MyChain, self).__init__()
        with self.init_scope():
            self.l1 = L.Linear(4, 3)
            self.l2 = L.Linear(3, 2)
    def __call__(self, x):
        h = self.l1(x)
        return self.l2(h)




class MyChain2(ChainList):
    def __init__(self):
        super(MyChain2, self).__init__(
            L.Linear(4, 3),
            L.Linear(3, 2),

    def __call__(self, x):
        h = self[0](x)
        return self[1](h)




model = MyChain()
optimizer = optimizers.SGD()


一些参数/梯度操作,例如权重衰减和梯度剪切,可以通过设置钩子函数到优化器来完成。 钩子函数在梯度计算之后和实际更新参数之前调用。例如,我们可以通过预先运行下一行来设置权重衰减正则化:




还有两种直接使用优化器的方法。一个是手动计算梯度,然后调用没有参数的 update()方法。不要忘记事先清除梯度!

x = np.random.uniform(-1, 1, (2, 4)).astype('f')
# compute gradient here...
loss = F.sum(model(chainer.Variable(x)))

另一种方法是将损失函数传递给update()方法。在这种情况下,cleargrads() 会被update方法自动调用,所以用户不必手动调用它。

def lossfun(arg1, arg2):
    # calculate loss
    loss = F.sum(model(arg1 - arg2))
    return loss
arg1 = np.random.uniform(-1, 1, (2, 4)).astype('f')
arg2 = np.random.uniform(-1, 1, (2, 4)).astype('f')
optimizer.update(lossfun, chainer.Variable(arg1), chainer.Variable(arg2))



  1. 对训练数据集进行迭代
  2. 提取小批量的预处理
  3. 神经网络的前向/后向计算
  4. 参数更新
  5. 评估验证数据集上的当前参数
  6. 记录和打印中间结果


  • 数据集抽象。它在上面的列表中实现了1和2。核心组件在数据集模块中定义。数据集和迭代器模块中还有许多数据集和迭代器的实现。

  • 训练器。它在上面的列表中实现3,4,5和6。整个程序由Trainer执行。更新参数(3和4)的方式由Updater定义,可以自由定制。 5和6由Extension的实例来实现,它将一个额外的过程附加到训练循环中。用户可以通过添加扩展来自由定制训练程序。用户也可以实现自己的扩展。



序列化器模块中定义了具体的序列化器。它支持NumPy NPZ和HDF5格式。


serializers.save_npz('my.model', model)


serializers.load_npz('my.model', model)



serializers.save_npz('my.state', optimizer)
serializers.load_npz('my.state', optimizer)


如果安装了h5py软件包,则支持HDF5格式。 HDF5格式的序列化和反序列化与NPZ格式的序列化和反序列化几乎相同;只需用save_hdf5()和load_hdf5()分别替换save_npz()和load_npz()即可。


现在,您可以使用多层感知器(MLP)来解决多类分类任务。我们使用手写数字数据集称为MNIST,这是机器学习中长期使用的事实上的“hello world”示例之一。这个MNIST例子也可以在官方仓库的examples / mnist目录中找到。我们演示如何使用训练器来构建和运行本节中的训练循环。

我们首先必须准备MNIST数据集。 MNIST数据集由70,000个尺寸为28×28(即784个像素)的灰度图像和相应的数字标签组成。数据集默认分为6万个训练图像和10,000个测试图像。我们可以通过datasets.get_mnist()获得矢量化版本(即一组784维向量)。

train, test = datasets.get_mnist()

此代码自动下载MNIST数据集并将NumPy数组保存到 $(HOME)/.chainer 目录中。返回的训练集和测试集可以看作图像标签配对的列表(严格地说,它们是TupleDataset的实例)。


train_iter = iterators.SerialIterator(train, batch_size=100, shuffle=True)

另一方面,我们不必洗牌测试数据集。在这种情况下,我们可以通过shuffle = False来禁止混洗。当底层数据集支持快速切片时,它使迭代速度更快。

test_iter = iterators.SerialIterator(test, batch_size=100, repeat=False, shuffle=False)

当所有的例子被访问时,我们停止迭代通过设定 repeat=False 。测试/验证数据集通常需要此选项;没有这个选项,迭代进入一个无限循环。


class MLP(Chain):
    def __init__(self, n_units, n_out):
        super(MLP, self).__init__()
        with self.init_scope():
            # the size of the inputs to each layer will be inferred
            self.l1 = L.Linear(None, n_units)  # n_in -> n_units
            self.l2 = L.Linear(None, n_units)  # n_units -> n_units
            self.l3 = L.Linear(None, n_out)    # n_units -> n_out

    def __call__(self, x):
        h1 = F.relu(self.l1(x))
        h2 = F.relu(self.l2(h1))
        y = self.l3(h2)
        return y



class Classifier(Chain):
    def __init__(self, predictor):
        super(Classifier, self).__init__()
        with self.init_scope():
            self.predictor = predictor

    def __call__(self, x, t):
        y = self.predictor(x)
        loss = F.softmax_cross_entropy(y, t)
        accuracy = F.accuracy(y, t)
        report({'loss': loss, 'accuracy': accuracy}, self)
        return loss

这个分类器类计算准确性和损失,并返回损失值。参数对x和t对应于数据集中的每个示例(图像和标签的元组)。 softmax_cross_entropy()计算给定预测和基准真实标签的损失值。 accuracy() 计算预测准确度。我们可以为分类器的一个实例设置任意的预测器连接。

report() 函数向训练器报告损失和准确度。收集训练统计信息的具体机制参见 Reporter. 您也可以采用类似的方式收集其他类型的观测值,如激活统计。


model = L.Classifier(MLP(100, 10))  # the input size, 784, is inferred
optimizer = optimizers.SGD()


updater = training.StandardUpdater(train_iter, optimizer)
trainer = training.Trainer(updater, (20, 'epoch'), out='result')





trainer.extend(extensions.Evaluator(test_iter, model))
trainer.extend(extensions.PrintReport(['epoch', 'main/accuracy', 'validation/main/accuracy']))
epoch       main/accuracy  validation/main/accuracy
  • Evaluator 在每个epoch 结束时基于测试数据集评估当前模型。它会自动切换到测试模式,因此我们不必为在训练/测试模式(例如,dropout(),BatchNormalization)中表现不同的模式采取任何特殊的功能。

  • LogReport 汇总要报告的数值并将其发送到输出目录中的日志文件。

  • PrintReport 在LogReport中打印选定的项目。

  • ProgressBar 显示进度条。


examples / mnist目录中的示例代码还包含GPU支持,尽管其基本部分与本教程中的代码相同。我们将在后面的章节中回顾如何使用GPU。


