为什么摘抄这一段，因为我认为这里是一个非常有用的部分，看完autograd就想去问答区提问：
训练指定层
然后发现没有c币，于是乎暂时作罢，结果发现答案就在下一小节（先看完再想问题，不然浪费了一个好问题），没办法我就是这么热爱思考的一个人，看完立刻就有问题，等不到再看一段书。

— 我是分界线—
p94:目前，绝大多数函数都可以使用autograd实现反向求导，但如果需要自己写一个复杂的函数，不支持自动反向求导怎么办？答案是写一个Function，实现它的前向传播和反向传播代码，Function对应于计算图中的矩形，它接收参数，计算并返回结果。下面给出一个例子：

class Mul(Function):
    @staticmethod
    def forward(ctx, w, x, b, x_requires_grad = True):
        ctx.x_requires_grad = x_requires_grad
        ctx.save_for_backward(w,x)
        output = w*x+b
        return output
    @staticmethod
    def backward(ctx, grad_output):
        w,x = ctx.saved_variables
        grad_w = grad_output * x
        if ctx.x_requires_grad:
            grad_x = grad_output * w
        else:
            grad_x = None
        grad_b = grad_output * 1
        return grad_w, grad_x, grad_b, None

对以上代码的分析如下。

自定义的Function需要继承autograd.Function，没有构造函数__init__，forward和backward函数都是静态方法
forward函数的输入和输出都是tensor，backward函数的输入和输出都是variable
backward函数的输出和forward函数的输入一一对应，backward函数的输入和forward函数的输出一一对应
backward函数的grad_output参数即t.autograd.backward中的grad_variables
如果某一个输入不需要求导，直接返回None
反向传播可能需要利用前向传播的某些中间结果，在前向传播过程中，需要保存中间结果，否则前向传播结束后这些对象即被释放

使用Function.apply(variable)即可调用实现的Function

from torch.autograd import Function

class MultiplyAdd(Function):
    
    @staticmethod
    def forward(ctx, w, x, b):
        print('type in forward', type(x))
        ctx.save_for_backward()
        output = w*x+b
        return output
    
    @staticmethod
    def backward(ctx, grad_output):
        w,x = ctx.saved_variables
        print('type in backward', type(x))
        grad_w = grad_output * x
        grad_x = grad_output * w
        grad_b = grad_output * 1
        return grad_w, grad_x, grad_b
    
x = V(t.ones(1))
w = V(t.rand(1), requires_grad = True)
b = V(t.rand(1), requires_grad = True)
print('forward')
z = MultiplyAdd.apply(w,x,b)
print('backward')
z.backward()
x.grad, w.grad, b.grad

forward函数的输入是tensor，而backward函数的输入是variable，这是为了实现高阶求导，backward函数的输入值是variable，但是在实际使用时autograd.Function会将输入variable提取为tensor，并将计算结果的tensor封装成variable返回，在backward函数中要对variable进行操作，是为了能够计算梯度的梯度。

书评

这本书不适合完全没有基础的人看，更像是介绍如何使用PyTorch框架的一本书，但是各大框架正在飞速发展，这本书用的版本和接口，很多在PyTorch1.0里面甚至0.4里面就已经deprecated（弃用）了。在看过PyTorch的官方Tutorials之后，这本书可以不看的，我看完也没有太大的收获，当然还是有的，最大的收获就是对整个框架的设计逻辑和思路设计有了整体的认识，知识更有体系，想要深入认真玩好这个框架还是看官方的Doc更直接些，只不过作为第一个入门框架直接上官方Doc可能难度较大。（其实也还好，理解起来也没有太大问题，系统学一遍只是让自己更踏实）