【王树森】神经网络结构搜索 (3/3): 可微方法 Differentiable Neural Architecture Search(个人向笔记)

Basic Idea

  • 需要用户自己定义一定数量的模块如9个模块,每个模块各不相同,如下图所示就可以被称为一个模块
    在这里插入图片描述
  • 还需要用户自己定义层数如20层,那么对于每一层我们都有9种模块可以选择,一共有20层,那么我们的搜索空间是 9 20 9^{20} 920
    在这里插入图片描述

Super Net

1. One layer of Super Net

  • Super Net 的一层由 9 个(上面人为设置)模块并联而成,用这 9 个模块处理输入的张量,然后对这 9 个模块的输出做加权平均得到一个张量 z ,权重由 Softmax 函数计算得出,输入为九个模块的参数
    在这里插入图片描述
  • Super Net 一共有 20 层(上面人为设置),在这 20 层后可能还有池化层和全连接层做分类或回归,但是之后的这些池化和全连接层需要用户根据自己的经验确定,该方法无法学习之后的超参数。一个层有 9 个并联的模块,但是每个层最后只会保留一个模块
    在这里插入图片描述
  • 每个层都有自己的可训练参数,层与层之间不共享参数
    在这里插入图片描述
  • 符号含义如下:
    在这里插入图片描述
  • 训练这个 Super Net,我们可以学习它的参数 θ
    在这里插入图片描述
  • 得到了训练的 θ,我们就可以用 Softmax算出权重,我们选择每一层中权重最大的模块作为我们的最终模块。这样我们就完成了搜索

在这里插入图片描述

  • 个人的理解插入:这里的 θ 是从训练数据中学习到的,有训练数据的特征,而符合预测结果的模块结构的 θ 会更大,所以我们可以通过 θ 来选

Computational Efficient Design

  • 在实际应用的时候我们要考虑计算的效率,有时候需要牺牲一些准确率来保证计算的高效性

Latency

  • 假设我们需要在手机上部署一个神经网路,我们希望 Latency 越小越好:
    在这里插入图片描述
  • 我们测出每一个模块的 Latency,再根据 θ 做加权平均,计算出整个神经网络的总 Latency
    在这里插入图片描述
  • 平衡 Latency 和准确率的方法就是我们可以把神经网络的总 Latency 加到损失函数里面去一起计算梯度:
    在这里插入图片描述

Hardware Awareness

  • 对于不同的硬件条件,在不同的设备上找到的网络结构会不同:
    在这里插入图片描述
  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
王树森的Q学习是一种强化学习算法,广泛应用于机器学习领域。 Q学习是通过不断迭代更新一个称为Q值的表格来实现的。这个表格记录了每个状态和动作组合的Q值,表示在某个状态下,采取某个动作所获得的预期回报。通过学习更新Q值,智能体能够学会在不同的情境下选择最优的动作。 王树森的Q学习算法主要包含以下几个步骤: 1. 初始化Q值表格,设置初始状态和动作; 2. 在每个时间步骤中,智能体观察当前状态和可用的动作,并根据一种策略(如epsilon-greedy)选择一个动作; 3. 执行所选择的动作,观察新的状态和获得的奖励; 4. 更新Q值表格,使用Q-learning更新公式:Q(s, a) = (1 - α) * Q(s, a) + α * (r + γ * max(Q(s', a'))),其中α是学习率,γ是折扣因子,r是获得的奖励,s'是新状态; 5. 重复上述步骤,直到达到指定的终止条件(如达到最大迭代次数或Q值收敛)。 王树森的Q学习算法具有以下优点: 1. 简单而高效:Q学习算法易于理解和实现,可以在很多问题上取得良好的效果; 2. 模型无关性:Q学习不需要事先了解环境的动力学模型,只需要通过与环境的交互进行学习即可; 3. 可扩展性:Q学习可以应用于离散或连续动作空间的问题。 然而,王树森的Q学习算法也存在一些限制和挑战: 1. 状态空间和动作空间的维度较高时,Q值表格会变得非常庞大,导致算法的计算和存储开销很大; 2. Q学习对环境中随机性的处理不够灵活,可能会收敛到局部最优解; 3. Q学习算法通常需要大量的训练数据和迭代次数才能获得较好的结果。 综上所述,王树森的Q学习是一种经典的强化学习算法,通过不断更新Q值表格来实现智能体的学习和决策。虽然存在一些限制,但Q学习在许多问题上取得了良好的效果,是机器学习领域中的一项重要研究内容。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值