昇思MindSpore进阶教程--高级自动微分

明志刘明

于 2024-09-28 11:29:31 发布

阅读量534

点赞数 4

分类专栏：昇思25天学习打卡营文章标签： php 开发语言人工智能深度学习 MindSpore 昇思

本文链接：https://blog.csdn.net/weixin_42553583/article/details/142612925

版权

昇思25天学习打卡营专栏收录该内容

44 篇文章 0 订阅

订阅专栏

大家好，我是刘明，明志科技创始人，华为昇思MindSpore布道师。
技术上主攻前端开发、鸿蒙开发和AI算法研究。
努力为大家带来持续的技术分享，如果你也喜欢我的文章，就点个关注吧

正文开始

mindspore.ops模块提供的grad和value_and_grad接口可以生成网络模型的梯度。grad计算网络梯度，value_and_grad同时计算网络的正向输出和梯度。本文主要介绍如何使用grad接口的主要功能，包括一阶、二阶求导，单独对输入或网络权重求导，返回辅助变量，以及如何停止计算梯度。

一阶求导

计算一阶导数方法：mindspore.grad，其中参数使用方式为：

fn：待求导的函数或网络。
grad_position：指定求导输入位置的索引。若为int类型，表示对单个输入求导；若为tuple类型，表示对tuple内索引的位置求导，其中索引从0开始；若是None，表示不对输入求导，这种场景下，weights非None。默认值：0。
weights：训练网络中需要返回梯度的网络变量。一般可通过weights = net.trainable_params()获取。默认值：None。
has_aux：是否返回辅助参数的标志。若为True，fn输出数量必须超过一个，其中只有fn第一个输出参与求导，其他输出值将直接返回。默认值：False。
下面先构建自定义网络模型Net，再对其进行一阶求导，通过这样一个例子对grad接口的使用方式做简单介绍，即公式：
$\tag{1}$
首先定义网络模型Net、输入x和输入y：

import numpy as np
from mindspore import ops, Tensor
import mindspore.nn as nn
import mindspore as ms

# 定义输入x和y
x = Tensor([3.0], dtype=ms.float32)
y = Tensor([5.0], dtype=ms.float32)


class Net(nn.Cell):
    def __init__(self):
        super(Net, self).__init__()
        self.z = ms.Parameter(ms.Tensor(np.array([1.0], np.float32)), name='z')

    def construct(self, x, y):
        out = x * x * y * self.z
        return out

对输入求一阶导

对输入x, y进行求导，需要将grad_position设置成(0, 1)：
$\frac{\partial f}{\partial x}=2 * x * y * z \tag{2}$
$\frac{\partial f}{\partial y}=x * x * z \tag{3}$

net = Net()
grad_fn = ms.grad(net, grad_position=(0, 1))
gradients = grad_fn(x, y)
print(gradients)

对权重进行求导

对权重z进行求导，这里不需要对输入求导，将grad_position设置成None：
$\frac{\partial f}{\partial z}=x * x * y \tag{4}$

params = ms.ParameterTuple(net.trainable_params())

output = ms.grad(net, grad_position=None, weights=params)(x, y)
print(output)

返回辅助变量

同时对输入和权重求导，其中只有第一个输出参与求导，示例代码如下：

net = nn.Dense(10, 1)
loss_fn = nn.MSELoss()


def forward(inputs, labels):
    logits = net(inputs)
    loss = loss_fn(logits, labels)
    return loss, logits


inputs = Tensor(np.random.randn(16, 10).astype(np.float32))
labels = Tensor(np.random.randn(16, 1).astype(np.float32))
weights = net.trainable_params()

# Aux value does not contribute to the gradient.
grad_fn = ms.grad(forward, grad_position=0, weights=None, has_aux=True)
inputs_gradient, (aux_logits,) = grad_fn(inputs, labels)
print(len(inputs_gradient), aux_logits.shape)

停止计算梯度

可以使用stop_gradient来停止计算指定算子的梯度，从而消除该算子对梯度的影响。

在上面一阶求导使用的矩阵相乘网络模型的基础上，再增加一个算子out2并禁止计算其梯度，得到自定义网络Net2，然后看一下对输入的求导结果情况。

示例代码如下：

class Net(nn.Cell):

    def __init__(self):
        super(Net, self).__init__()

    def construct(self, x, y):
        out1 = x * y
        out2 = x * y
        out2 = ops.stop_gradient(out2)  # 停止计算out2算子的梯度
        out = out1 + out2
        return out


net = Net()
grad_fn = ms.grad(net)
output = grad_fn(x, y)
print(output)

从上面的打印可以看出，由于对out2设置了stop_gradient，所以out2没有对梯度计算有任何的贡献，其输出结果与未加out2算子时一致。

下面删除out2 = stop_gradient(out2)，再来看一下输出结果。示例代码为：

class Net(nn.Cell):
    def __init__(self):
        super(Net, self).__init__()

    def construct(self, x, y):
        out1 = x * y
        out2 = x * y
        # out2 = stop_gradient(out2)
        out = out1 + out2
        return out


net = Net()
grad_fn = ms.grad(net)
output = grad_fn(x, y)
print(output)