矩阵求导:
常见的矩阵求导公式:
-
向量对标量求导(Vector-by-scalar) 如果 y 是一个向量,x 是一个标量,那么 y 对 x 的导数是一个列向量,其中每个元素是 y 中对应元素对 x 的导数。
-
标量对向量求导(Scalar-by-vector) 如果 y 是一个标量,x 是一个向量,那么 y 对 x 的导数是一个行向量,其中每个元素是 y 对 x 中对应元素的导数。
-
向量对向量求导(Vector-by-vector) 如果 y 是一个向量,x 是一个向量,那么 y 对 x 的导数是一个矩阵,称为雅可比矩阵(Jacobian Matrix),其中每个元素是 y 中对应元素对 x 的导数。
-
矩阵对标量求导(Matrix-by-scalar) 如果 Y 是一个矩阵,x 是一个标量,那么 Y 对 x 的导数是一个与 Y 维度相同的矩阵,其中每个元素是 Y 中对应元素对 x 的导数。
-
标量对矩阵求导(Scalar-by-matrix) 如果 y 是一个标量,X 是一个矩阵,那么 y 对 X 的导数是一个与 X 维度相同的矩阵,其中每个元素是 y 对 X 中对应元素的导数。
自动求导:
标量求导:
x=torch.arange(4.0,requires_grad=True)#计算𝑦关于𝐱的梯度之前,需要一个地方来存储梯度
y = 2 * torch.dot(x, x)#设置y关于x的函数
y.backward()#调用反向传播函数来自动计算y
关于x
每个分量的梯度
x.grad
x.grad.zero_()# 在默认情况下,PyTorch会累积梯度,需要清除之前的值
非标量变量的反向传播:
单独计算批量中每个样本的偏导数之和
x.grad.zero_() y = x * x
y.sum().backward() x.grad # 等价于y.backward(torch.ones(len(x)))
分离计算:
x.grad.zero_()
y = x * x
u = y.detach()#分离y来返回一个新变量u,将y视为一个常数
z = u * x
z.sum().backward()
x.grad == u#结果为True
概率论
进行500组骰子实验,每组抽取10个样本,作图查看概率如何随着时间的推移收敛到真实概率
fair_probs = torch.ones([6]) / 6
counts=multinomial.Multinomial(10,fair_probs).sample((500,))
#多项分布---每组抽取10个,fair_probs为各事件概率,抽样500次
cum_counts=counts.cumsum(dim=0)
#cumsum---累计相加
estimates=cum_counts/cum_counts.sum(dim=1,keepdims=True)
d2l.set_figsize((6,4.5))
for i in range(6):
d2l.plt.plot(estimates[:,i].numpy(),
label=("P(die="+str(i+1)+")"))
d2l.plt.axhline(y=0.167,color='black',linestyle='dashed')
d2l.plt.gca().set_xlabel('Groups of experiments')
d2l.plt.gca().set_ylabel('Estimated probability')
d2l.plt.legend();