笔记:AI芯片的算法优化II

在上一篇文章《AI芯片的算法优化》中,介绍了一些降低AI算法在芯片中的内存和功耗的方法,本篇接续上一篇,继续补充近几年AI芯片算法的改进思路。

1. 卷积分解方法

这种方法的代表模型是谷歌提出的MobileNet,它将标准卷积分解为深度卷积(Depthwise Convolution)和逐点卷积(Bitwise Convolution)。Depthwise Convolution将单个卷积核应用于每个输入通道,然后,通过1x1的Bitwise Convolution对输出的深度卷积进行组合,这种分解可极大减小计算量以及模型大小。

MobileNet已经发展到了v3版本。在最新的MobileNet版本中,组合了互补搜索技术,通过硬件感知的神经架构搜索(NAS)与NetAdapt算法相结合的方式,使该模型适用于手机CPU。

2. 提前终止方法

随着DNN深度的增加,在提高精度的同时,算法的时延和功耗也在不断升高。为了降低时延和功耗,有一种优化方法是动态更改网络结构,根据需要在网络的中间位置输出结果,而不再进一步处理,也就是提前终止。

基于这种思路,哈佛大学提出了BranchyNet,在这种网络架构中,边侧分支被添加到主神经网络中,以允许某些测试样本提前退出,避免对所有层进行处理,从而大大减少样本的推理运行时间和能耗。BranchyNet可以和网络修剪和网络压缩等技术结合使用。

3. 知识蒸馏方法

知识蒸馏方法最早由Hinton及其团队提出。蒸馏模型采用迁移学习的方法,通过采用预先训练好的复杂模型(称为教师模型)的输出作为监督信号,去训练一个相对简单的模型(称为学生模型)。知识蒸馏方法能使深度模型变浅,从而降低计算成本,但也存在约束条件太强等缺点,阻碍了其广泛应用。

4. 经验测量方法

2018年,麻省理工和谷歌联合推出了NetAdapt,该网络使用所谓的经验测量方法,直接把功耗和时延指标的评估用于指导网络优化的过程,自动逐步优化预先训练的网络,直到能够满足资源预算,同时最大限度地保证网路地准确性。

5. 哈希算法取代矩阵乘法

哈希算法是20世纪90年代为互联网搜索发明的一种数据索引方法,它是一种类似最近邻算法的搜索技术,可以大大缩短检索时间,同时节约内存占用。2020年,美国莱斯大学提出SLIDE深度学习算法,它在训练中不使用耗时耗能的矩阵乘法,而是利用自适应稀疏性,使用哈希算法完成。在SLIDE算法的训练中,每次梯度更新时,根据神经元的激活,选择性地稀疏大多数神经元,使得神经网络的训练变成一个搜索问题。

SLIDE算法由于不需要矩阵乘法,因此使用一般的CPU即可达到同等参数量情况下完胜GPU的优势。但目前该技术尚不成熟,演示算法仅仅基于全连接网络,还未涉及CNN。

6. 神经架构搜索

神经架构搜索(NAS)是一种把架构设计自动化的方法,被看作是深度学习技术的下一步发展方向。EfficientNet模型系列便是基于NAS的设计,与传统的CNN相比,EfficientNet参数要少好几个数量级,并且具有更高的准确性和效率。

但是,NAS除了要考虑算法架构的搜索,还需要考虑神经网络架构和硬件配置的最佳组合,这样的搜索空间就会非常大。研究人员目前采用的NAS方法包括自然算法、仿生算法(尤其是进化算法)、强化学习等。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值