《AI系统周刊》第5期：Cerebras发布可运行120万亿参数AI模型的CS-2芯片

智源社区

于 2021-09-24 18:10:00 发布

阅读量380

点赞数

文章标签：大数据算法编程语言 python 计算机视觉

原文链接：https://mp.weixin.qq.com/s?__biz=MzU5ODg0MTAwMw==&mid=2247503653&idx=2&sn=386de8d5c55c62568c3030b00067b16c&chksm=febc8ce1c9cb05f721e11986948292d91fde4dc2f7b485c75e5bd40a03be010edd8b82497eda&scene=126&&sessionid=0

版权

No.05

智源社区

AI系统组

系

统

研究

观点

资源

活动

关于周刊

AI系统是当前人工智能领域极具现实意义与前瞻性的研究热点之一，为了帮助研究与工程人员了解这一领域的进展和资讯，我们“AI系统”兴趣组整理了第5期《AI系统周刊》，从论文推荐、研究动态等维度推荐近期 AI系统领域值得关注的信息，内容主要包括模型压缩、神经网络架构搜索等。周刊采用社区协作的模式产生，欢迎感兴趣的朋友们加入我们，一同推动AI系统社群学习与交流。扫描文末二维码申请加入智源社区AI系统研究组。

本期贡献者：ghwang, Juli

论文推荐

标题：华为诺亚 | 针对超分任务的无数据蒸馏了解详情

简介：华为诺亚实验室将无数据任务由传统的分类、检测、语义分割扩展到了low-level的超分任务上。针对超分任务，引入了新的损失函数：低分辨率的图像经过超分网络会增加很多细节和像素，而超分图像降采样后应该与低分图像接近，因此将经过超分网络获得的图像降采样，降低原始低分图像与所得低分图像之间的差异，由此对网络进行优化。此外，针对超分网络较大而难以训练的情况，提出了渐进蒸馏策略，将原始网络拆分，逐步进行优化。该方法首次实现超分网络的无数据蒸馏，且获得了较好的蒸馏效果。

论文地址：https://openaccess.thecvf.com

标题：阿里巴巴 | Zen-NAS：高性能深度图像识别的Zero-Shot NAS

了解详情

简介：神经架构搜索 (NAS) 中使用准确率预测器对子网进行排名，而构建高质量的预测器需要大量计算。本文提出Zen-Score 来对子网进行排名，从而取代预测器。Zen-Score 表示网络表达能力，与模型准确率正相关，它的计算只需要通过随机初始化的网络进行一些前向推理，无需训练网络参数。基于 Zen-Score，本文提出了Zen-NAS，通过在给定的推理预算下最大化目标网络的 Zen-Score，获得最优网络。与之前的方法相比， Zen-NAS 在服务器端和移动端 GPU 平台上的速度要快几倍，且在 ImageNet 上有最高的精度。

论文地址：https://arxiv.org/abs/2102.01063

标题：KAIST | GST：基于加速深度强化学习的群稀疏训练方法（GST: Group-Sparse Training for Accelerating Deep Reinforcement Learning）了解详情

简介：先前的迭代剪枝不仅在训练开始时表现出较低的压缩率，而且使得DRL（深度强化学习）训练不稳定，为了克服这些缺点，本文提出了一种新颖的DRL训练加速权值压缩方法，称为群稀疏训练（GST）。GST选择性地利用块循环压缩，在DRL训练的所有迭代过程中保持较高的权重压缩比，并通过奖励感知修剪动态自适应目标稀疏性，以实现稳定训练。GST比 TD3 训练的 Mujoco Halfcheetah-v2 和 Mujoco humanoid-v2 获得了高 25%p∼41.5%p的平均压缩率。

论文地址：https://arxiv.org/pdf/2101.09650.pdf

标题：华为 | 重温用于目标检测的知识蒸馏(Revisiting Knowledge Distillation for Object Detection) 了解详情

简介：现有的目标检测蒸馏解决方案依赖于教师模型和真实标签的可用性，本文提出了一个新的视角来解决这种限制。该框架中，学生首先使用教师生成的伪标签进行训练，然后使用标签数据进行微调。此外，文章发现通过解耦教师网络和真实标签，可以获得一些有趣的效果：1) 使用无标记数据可以进一步提高学生网络的性能，2) 可以将不同架构的多个教师模型进行结合，即使他们有不同的对象类别，3 ) 可以减少对有标签数据的需求（在只有20% 标签的 COCO数据上，该方法获得了与有完整标签相同的性能）。

论文地址：https://arxiv.org/abs/2105.10633

标题：北京大学 | 视觉Transformer的训练后量化（Post-Training Quantization for Vision Transformer）了解详情

简介：最近，Transformer在各种计算机视觉应用中取得了卓越的性能，与主流的卷积神经网络相比，视觉Transformer通常具有用于提取强大特征表示的复杂架构，在移动设备上更难开发。本文深入分析了不同层的量化损失与特征多样性之间的关系，并通过利用每个注意力图和输出特征的核范数探索混合精度量化方案，为视觉Transformer开发了一种新的训练后量化方案，其中每层的位宽基于transformer层中的注意力图和输出特征的核范数而变化，表现SOTA！优于Bit-Split、EasyQuant等方法。

论文地址：https://arxiv.org/abs/2106.14156

标题：厦门大学 | DCFF：使用动态编码Filter融合训练用于紧凑型CNN（Training Compact CNNs for Image Classification using Dynamic-coded Filter Fusion）了解详情

简介：Filter剪枝的主流方法通常是对计算量大的预训练模型强制进行硬编码的重要性估计以选择“重要”filter，或者对损失目标施加超参数敏感稀疏约束以规范网络训练。在本文中，提出了一种新的filter剪枝方法，称为动态编码滤波器融合（DCFF），以计算经济和无正则化的方式推导出紧凑的CNN，以实现高效的图像分类，优于LFPC、HRank和AutoPruner等网络，代码刚刚开源！

论文地址：https://arxiv.org/abs/2107.06916

标题：悉尼大学 | GLiT：全局和局部图像Transformer的神经架构搜索（GLiT: Neural Architecture Search for Global and Local Image Transformer）了解详情

简介：这是第一个通过NAS对Transformer架构进行搜索的工作，通过引入locality模块减少对图像中的局部相关性进行建模的计算成本。通过 locality模块，将搜索空间定义为让搜索算法在全局和局部信息之间自由权衡，并优化每个模块中的低级设计选择。针对巨大搜索空间带来的问题，提出了一种分层神经架构搜索方法，利用进化算法分别从两个层次搜索最优视觉Transformer。

论文地址：https://arxiv.org/abs/2107.02960

标题：字节 | 面向GAN压缩的在线多粒度蒸馏算法(Online Multi-Granularity Distillation)了解详情

简介：当前的 GAN压缩算法主要存在两个方面的问题：一方面，当前研究倾向于直接采用成熟技术来进行压缩，而这些技术不是面向 GAN 定制的，缺乏对 GAN 复杂特性和结构的探索；另一方面，GAN 压缩通常被规划为一个多阶段的任务，多阶段设置中对时间和计算资源的要求较高。为了解决上述问题，字节团队提出了一种面向 GAN 压缩的在线多粒度蒸馏算法，该算法能够把 GAN 模型的计算量减少到最低 1/46、参数量减少到最低 1/82 ，并保持原来的图像生成质量。

论文地址：https://arxiv.org/abs/2108.06908

标题：卡内基梅隆 | 基于Actor-Learner蒸馏的强化学习中的高效Transformers(Efficient Transformers in Reinforcement Learning using Actor-Learner Distillation)了解详情

简介：本文开发了一个“Actor-Learner蒸馏”（ALD）程序，其利用连续蒸馏形式，将学习进度从大容量学习者模型转移到小容量参与者模型。以Transformer模型作为学习器，LSTM作为Actor，本文在几个具有挑战性的记忆环境中证明，使用Actor-Learner Distillation蒸馏可以使恢复 Transformer Actor模型清晰样本的效率增加，同时保持LSTM-Actor模型的快速推理和减少 LSTM 的总训练时间。

论文地址：https://arxiv.org/pdf/2104.01655.pdf

研究动态

Cerebras的CS-2芯片可以运行120万亿参数规模的AI模型了解详情

Cerebras Systems 表示，其 CS-2 Wafer Scale Engine 2 处理器已经可以为具有超过 120 万亿个参数的 AI 模型提供算力支持。Cerebras CS-2 由 Wafer Scale Engine (WSE-2) 提供支持，这是有史以来最大的芯片和迄今为止最快的 AI 处理器。采用 7nm工艺，专为 AI 工作而打造，拥有 2.6 万亿个晶体管和 850,000 个 AI 优化内核。相比之下，当前最大的GPU只有 540 亿个晶体管，比 WSE-2 少了 2.55 万亿个晶体管。WSE-2 还拥有比图形处理单元竞争对手多 123 倍的内核和 1,000 倍的高性能片上内存。

500亿晶体管，Dojo芯片细节发布！特斯拉ExaPOD将炼成「全球最快AI计算机」了解详情

特斯拉举办AI日，公布了为 Dojo 超级计算机自研的D1芯片。该芯片具有 CPU 级别的计算能力和灵活性， I/O 带宽是网络芯片的2倍，芯片之间可以无缝连接，无需任何胶水。凭借这款芯片，特斯拉将 25 个 D1 芯片组成了一个训练模块，集合120个训练模块，打造出了全球最快的AI训练计算机ExaPOD！其算力高达1.1 EFLOP，超过日本富士通。

AI助力芯片设计效率革命：Jeff Dean领衔推出最新方案，6小时内完成布局设计了解详情

最基本的芯片晶体管部件都是微米、纳米级尺度，如何铺设和利用这几百亿个晶体管，如何通过模块设计组合迸发出一款芯片的极致性能，如何满足日益增长的终端需求，这是如今芯片设计工程师们面临的严苛挑战。现在随着 AI 技术深入到芯片设计领域，一场效率革命可能要再次席卷而来。由 Jeff Dean 领衔的谷歌大脑团队以及斯坦福大学计算机科学系的科学家们，在一项联合研究中证明，一种基于深度强化学习的芯片布局规划方法，能够生成可行的芯片设计方案。在不到 6 小时的时间内，由该方法自动生成的芯片平面图在所有关键指标上（包括功耗、性能和芯片面积等参数）都优于或与人类专家生成的设计图效果相当，而人类工程师往往需要数月的紧张努力才能达到如此效果。

苹果机器学习团队推出“Hypersim”：用于整体室内场景理解的逼真合成数据集了解详情

CV领域一直渴望找到一种方法，让计算机和人类都能够理解室内场景的复杂性。他们已经创建了没有真实值标签的合成数据集，具有互动能力的模拟环境能够快速推动对环境的全面了解。然而，现有的综合数据集和模拟器存在一些局限性，为了解决这些问题，Apple 研究人员开发了“ Hypersim”，这是一种用于整体室内场景理解的逼真合成数据集。为了创建“Hypersim”数据集，苹果研究人员使用了由专业艺术家创建的大型合成场景存储库。他们生成了 461 个室内场景的 77,400 张图像，带有详细的每像素标签和相应的实况几何。