No.02
智源社区
AI系统组
A
I
系
统
研究
观点
资源
活动
关于周刊
AI系统是当前人工智能领域极具现实意义与前瞻性的研究热点之一,为了帮助研究与工程人员了解这一领域的进展和资讯,我们“AI系统”兴趣组整理了第2期《AI系统周刊》,从论文推荐、研究动态、学术资源等几个维度推荐近期 AI系统领域值得关注的信息,内容主要包括模型加速、智能体系架构与芯片以及软硬件系统。周刊采用社区协作的模式产生,欢迎感兴趣的朋友们加入我们,一同推动AI系统社群学习与交流。扫描文末二维码申请加入智源社区AI系统研究组。
(本期贡献者:Juli、ghwang、梁小伟、王欢)
论文推荐
标题:互补关系对比蒸馏(Complementary Relation Contrastive Distillation )了解详情
简介:2021年ICLR的CRD (Contrastive Relation Distillation)首次把contrastive learning的思想用到了KD中, 并取得了当时最好的结果. 相比于CRD, 论文将样本之间的距离引入了进来;在CIFAR100和ImageNet数据集上均比CRD和SSKD方法效果更好.
论文地址:https://arxiv.org/abs/2103.16367
标题:硬件支持的Tensor-train分解与高效数据处理(Hardware-Enabled Efficient Data Processing with Tensor-Train Decomposition)了解详情
简介: 为了应对TTD存在的问题,论文提出了第一个为有效执行TTD算法进行算法-硬件协同设计的定制架构(即TTD Engine)。利用特殊的高阶张量数据结构以及数据稀疏性和对称性对原始的TTD算法进行了调整。并提出了一种分解计算方式进行逐元素操作,利用借助TTD Engine解决阶增长问题。并在TTD引擎的基础上对TT格式的数据实施卷积运算。
论文地址:https://ieeexplore.ieee.org/document/9351565
标题:使用基于位级稀疏性优化和可变精度的Tensor-train内存计算处理器(15.4 A 5.99-to-691.1TOPS/W Tensor-Train In-Memory-Computing Processor Using Bit-Level-Sparsity-Based Optimization and Variable-Precision Quantization)了解详情
简介:TT分解引入了多个串行矩阵乘法(MM),从而产生了更多的MAC操作。为了解决该挑战,论文提出了一种TT @ CIM处理器,实现了5.99~691.13TOPS / W的能量效率。采用基于MM融合和数据重用的CIM维度匹配TTI数据流;基于查找表(LUT)的MAC单元的可变精度量化方法等创新方法。
论文地址:https://ieeexplore.ieee.org/document/9365989
标题:基于多样化样本生成的无数据量化(Diversifying Sample Generation for Accurate Data-Free Quantization)了解详情
简介:研究发现现有的基于BN层统计量的无数据量化方法中,生成的数据存在显著的同质化问题。本文的DSG方案包括两个技术贡献:(1)松弛分布对齐(SDA):松弛BN层特征统计量,松弛统计分布约束;(2)分层样本增强( LSE):对不同的数据样本,采用分层增强的方法对特定层增强。这两种方法缓解了同质化问题,使得生成的数据更具多样性,在进行量化时可以获得与真实数据接近的效果。
论文地址:https://ieeexplore.ieee.org/document/9365989
标题:MSAD:用于低分辨率检测任务的多尺度对齐蒸馏(Multi-Scale Aligned Distillation for Low-Resolution Detection)了解详情
简介:本文首先将知识蒸馏应用于以不同输入分辨率起作用的师生网络的挑战上。为了解决这个问题,文章探索了通过移动特征金字塔位置在不同输入分辨率的模型之间空间对齐特征图的想法,并引入对齐的多尺度训练。此外,本文提出交叉特征级别融合以动态融合教师的多分辨率特征,以更好地指导学生。
论文地址:https://jiaya.me/papers/msaligndistill_cvpr21.pdf
标题:通过知识蒸馏压缩视觉语言模型(Compressing Visual-linguistic Model via Knowledge Distillation)了解详情
简介:本文以目标检测器的 proposal 作为迁移学习的中间表征,设计了能够对齐学生网络和教师网络隐藏表征和注意力分布的视觉-语言跨模态知识蒸馏框架,在图像描述和视觉问答问题上取得了出色的效果。
论文地址:https://arxiv.org/pdf/2104.02096.pdf
标题:基于有效权重卷积和误差压缩预测的28nm 12.1TOPS/W 双模CNN处理器(A 28nm 12.1TOPS/W Dual-Mode CNN Processor Using Effective-Weight-Based Convolution and Error-Compensation-Based Prediction)
了解详情
简介:为了在端侧设备上高效部署CNN模型本文通过挖掘量化后CNN模型权值大量冗余的特征,提出基于有效权重的卷积计算(EWC),通过预先合并相同权重的运算,可以减少大于90%的乘法运算;引入基于误差补偿的预测技术,大幅减少激活函数低阶bit的运算量;提出专用的流水结构,减少残差结构中大量的片外访存操作。
论文地址:https://ieeexplore.ieee.org/document/9365943
研究动态
清华大学吴文斐研究组深度学习系统研究获得NSDI最佳论文奖了解详情
近日,交叉信息研究院助理教授吴文斐等作者合作完成的论文《ATP:面向多租户的深度学习训练聚合传输协议》获得第18届USENIX网络系统设计与实现年会(Symposium on Network System Design and Implementation)最佳论文奖。
时隔半年,中国龙芯的自主指令系统架构LoongArch终于来了!了解详情
龙芯是近年来国产自主程度相对较高的芯片,曾支撑 2015 年中国发射的北斗卫星。2020 年 8 月份,龙芯曾宣布放弃所有美国技术,转而研发一套完全采用中国技术的指令集 ,离自主可控更进一步。如今,龙芯正式推出自主指令系统架构,相应芯片已成功流片。
CPU比GPU训练神经网络快十几倍,英特尔:别用矩阵运算了了解详情
近日,莱斯大学、蚂蚁集团和英特尔等机构的研究者发表了一篇论文,表明了在消费级CPU上运行的AI软件,其训练深度神经网络的速度是GPU 的15倍。
天数智芯7纳米GPU云端训练芯片BI正式发布了解详情
作为天数智芯推出的首款旗舰产品,BI是国内第一款全自研、真正基于通用GPU架构的GPGPU云端高端训练芯片,采用业界领先的7纳米制造工艺、2.5D CoWoS封装,容纳240亿晶体管,支持FP32、FP/BF16、INT32/16/8等多精度数据混合训练,集成32GB HBM2内存、存储带宽达1.2TB,单芯每秒可进行147万亿次FP16计算(147TFLOPS@FP16)。
学术资源
机器学习硬件加速器 | Hardware Accelerators for Machine Learning (CS 217)了解详情
深入介绍机器学习系统中设计训练和推理加速器的架构技术。课程涵盖经典的ML算法,用于ML模型推理和训练的加速器设计等,提供专业材料和PPT,近期更新了GitHub网站内容并提供部分学生实验代码。
课程网站:https://cs217.stanford.edu/
GitHub链接:https://github.com/cs217
Awesome Tensor Compilers:深度学习编译器资源列表了解详情
TVM小组成员郑怜悯的项目。他现在是伯克利的博士生。包括开源项目、论文、教程三部分。
GitHub网址:https://github.com/merrymercy/awesome-tensor-compilers
如果你正在从事或关注 AI 系统研究、实现与应用,欢迎加入“智源社区-AI 系统-交流群”。在这里,你可以:
学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴
请扫描下方二维码加入。