【王树森】神经网络结构搜索 (3/3): 可微方法 Differentiable Neural Architecture Search（个人向笔记）

最新推荐文章于 2024-09-02 20:14:35 发布

好心的小明

最新推荐文章于 2024-09-02 20:14:35 发布

阅读量298

点赞数 3

文章标签：神经网络笔记人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hxdxiaoming/article/details/141804913

版权

Basic Idea

需要用户自己定义一定数量的模块如9个模块，每个模块各不相同，如下图所示就可以被称为一个模块
还需要用户自己定义层数如20层，那么对于每一层我们都有9种模块可以选择，一共有20层，那么我们的搜索空间是 $9^{20}$

Super Net

1. One layer of Super Net

Super Net 的一层由 9 个（上面人为设置）模块并联而成，用这 9 个模块处理输入的张量，然后对这 9 个模块的输出做加权平均得到一个张量 z ，权重由 Softmax 函数计算得出，输入为九个模块的参数
Super Net 一共有 20 层（上面人为设置），在这 20 层后可能还有池化层和全连接层做分类或回归，但是之后的这些池化和全连接层需要用户根据自己的经验确定，该方法无法学习之后的超参数。一个层有 9 个并联的模块，但是每个层最后只会保留一个模块
每个层都有自己的可训练参数，层与层之间不共享参数
符号含义如下：
训练这个 Super Net，我们可以学习它的参数 θ
得到了训练的 θ，我们就可以用 Softmax算出权重，我们选择每一层中权重最大的模块作为我们的最终模块。这样我们就完成了搜索

在这里插入图片描述

个人的理解插入：这里的 θ 是从训练数据中学习到的，有训练数据的特征，而符合预测结果的模块结构的 θ 会更大，所以我们可以通过 θ 来选

Computational Efficient Design

在实际应用的时候我们要考虑计算的效率，有时候需要牺牲一些准确率来保证计算的高效性

Latency

假设我们需要在手机上部署一个神经网路，我们希望 Latency 越小越好：
我们测出每一个模块的 Latency，再根据 θ 做加权平均，计算出整个神经网络的总 Latency
平衡 Latency 和准确率的方法就是我们可以把神经网络的总 Latency 加到损失函数里面去一起计算梯度：

Hardware Awareness

对于不同的硬件条件，在不同的设备上找到的网络结构会不同：

好心的小明

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
【王树森】神经网络结构搜索 (3/3): 可微方法 Differentiable Neural Architecture Search（个人向笔记）

920。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。