ZOMI酱-CSDN博客

原创宝通科技携手昇腾技术首席陈仲铭，共探工业大模型与生态发展

主讲人陈仲铭博士是昇腾大模型资深专家，负责昇腾训练业务整体架构，主导大模型分布式加速库MindSpeed，拥有113项发明专利，并以第一作者发表《深度强化学习原理与实践》等3本专著，也是B站AI科技圈UP主，ZOMI 酱。分享会最后，陈仲铭博士指出，工业大模型不仅是技术发展的前沿，更是推动工业智能化的重要力量。分享会中，陈仲铭博士首先从工业大模型的发展历程讲起，分析了当前工业大模型在智能制造、智慧交通等领域的应用现状和未来趋势。在分享会的互动环节中，陈仲铭博士与宝通科技的员工进行了深入的交流。

2024-07-31 12:36:54 448

原创 AI System AI系统对大模型的影响有多深？

从纯算法模型结构上，Google 的 T5 是比 GPT 更加优雅的神经网络模型结构，但是由于 T5 的模型结构不是线性的，因为在 Decoder 和 Encoder 之间有复杂的连接关系（即对应的 Cross Attention 或者叫做 Cross Condition），导致 T5 在真正大规模堆叠的时候，实际上在工程领域，很难通过分布式并行高效的执行起来。因此百亿级别和千亿级别的 MoE 架构开始慢慢成为了大模型时代考虑的下一个主流方向，即如何用更低的成本，更快地训练更大的模型。

2024-04-21 17:23:10 859

原创 03.atuodiff

了解神经网络/AI系统中训练流程跟微分之间的关系回顾自动微分的正反向模式和计算图中的自动微分了解自动微分在深度学习中的一个实现表示。

2023-07-25 14:07:08 262

原创我真的想知道，AI编译器中的IR是什么？

IR（Intermediate Representation）中间表示，是编译器中很重要的一种数据结构。编译器在完成前端工作以后，首先生成其自定义的 IR，并在此基础上执行各种优化算法，最后再生成目标代码。从广义上看，编译器的运行过程中，中间节点的表示，都可以统称为 IR。从狭义上讲编译器的 IR，是指该编译器明确定义的一种具体的数据结构，这个数据结构通常还伴随着一种语言来表达程序，这个语言程序用来实现这个明确定义的 IR。

2023-07-24 19:32:55 359

原创我真的想知道，AI框架跟计算图什么关系？PyTorch如何表达计算图？

我们会经常遇到有些 AI 框架把统一的图描述称为数据流图，有些称为计算图，这里可以统称为计算图。下面简单介绍为什么可以都统称为计算图的原因。数据流图（Data Flow Diagram，DFD）：从数据传递和加工角度，以图形方式来表达系统的逻辑功能、数据在系统内部的逻辑流向和逻辑变换过程，是结构化系统分析方法的主要表达工具及用于表示软件模型的一种图示方法。在 AI 框架中数据流图表示对数据进行处理的单元，接收一定的数据输入，然后对其进行处理，再进行系统输出。

2023-07-23 09:00:01 233

原创我真的想知道，AI框架的编程范式怎么理解？

我给领导汇报AI框架用函数式编程好，没讲明白，说函数式就是写函数那样方便，都被领导吊飞了，啥玩意，写啥不是写函数，狗屁不通！网上搜说用tensorflow那就是用声明式编程，用pytorch就是命令式编程。有兄弟能讲清楚，AI框架的编程范式到底如何区分？AI框架中的不同编程范式有什么作用吗？

2023-07-21 19:11:57 182

原创 2023了，学习深度学习框架哪个比较好？

本节内容回顾了AI框架在时间维度和技术维度的发展趋势技术上初代AI框架解决AI编程问题，第二代加速科研和产业落地，第三代结合特定领域语言和任务一起学习了AI框架随着的软硬件的发展升级而共同发展，展望AI框架的未来。

2023-07-18 00:23:50 491

原创到底什么是AI框架？AI框架有什么用？

如果把神经网络看做一个高维复杂的函数，那么训练的过程就是对损失函数进行求导，利用导数的性质找到损失函数的变化趋势，每次一点点地改变神经网络仲的参数。下面左图的公式是神经网络表示的复合函数表示，蓝色框框表示的是AI框架，AI框架给开发者提供构建神经网络模型的数学操作，AI框架把复杂的数学表达，转换成计算机可识别的计算图。我们需要了解的是，什么是训练？这里的反向，指的是图中的反向箭头，每一次对损失函数中的参数进行求导，都会复用前一次的计算结果和与其对称的原公式中的变量，更方便地对复合函数进行求导。

2023-07-15 21:06:26 269 1

原创到底什么是AI框架？AI框架有什么用？

最近一个月朋友老来挑战我：“”，于是趁着夜深人静的时候，真正地去梳理什么是AI框架，下面是我对AI框架的一些思考。到底什么是AI算法？什么是神经网络？神经网络有什么用？为什么神经网络需要训练？什么是模型？AI框架有什么用？AI框架能解决什么问题？上面的几个问题其实还挺有挑战的。下面我们来对清楚一些基本概念：深度学习是机器学习研究领域中的一种，深度学习的概念源于对的研究，很多深度学习算法都使用神经网络进行表示，因为神经网络的性能精度和通用效果都非常好，于是业界习惯性地把深度学习算法等同于AI。

2023-07-15 20:15:01 187

原创 AI编译器和推理引擎的区别

这里面提前抛转引入给出一个问题：到底推理引擎，有没有必要使用AI编译器实现？或者引入AI编译技术呢？

2023-05-13 10:17:28 630 1

原创【推理引擎：核心原理】系列来啦！从入门到昇腾！

《AI推理引擎：核心原理》这个系列的内容：从推理系统整体架构开始，然后到模型小型化、模型压缩，在真正推理之前需要进行模型转换和图优化，最后到kernel和runtime优化。还是很有意思的，也花了很多时间，希望能够帮助到大家啦！！！

2023-03-03 13:35:18 518

原创【AI编译器原理】系列来啦！我们要从入门到放弃！

AI编译器】深度学习的编译与优化就是将当前的深度学习计算任务通过一层或多层中间表达进行翻译和优化，最终转化成目标硬件上的可执行代码的过程。本系列将围绕现有【AI编译器】中的编译和优化工作的内容展开介绍。

2023-01-16 17:44:31 639

原创【AI框架核心技术】系列来啦！从入门到放弃！

【AI框架核心技术】这个系列，主要是跟大家一起探讨和学习人工智能、深度学习的计算机系统设计，而整个系统是围绕着我在工作之余所积累、梳理、构建关于AI框架的一些核心技术内容。

2023-01-12 23:49:53 266

原创 CLIP：多模态领域革命者

OpenAI 财大气粗力大砖飞搞出了 CLIP，在400M的图像-文本对数据上，用最朴素的对比损失训练双塔网络，利用text信息监督视觉任务自训练，对齐了两个模态的特征空间，本质就是将分类任务化成了图文匹配任务，效果可与全监督方法相当。在近 30 个数据集上 zero-shot 达到或超越主流监督学习性能。Let's dive in!...

2022-08-18 19:34:15 1172

原创 Diffusion Models：生成扩散模型

扩散模型（Diffusion Models）发表以来其实并没有收到太多的关注，因为他不像 GAN 那样简单粗暴好理解。不过最近这几年正在生成模型领域异军突起，当前最先进的两个文本生成图像——OpenAI 的 DALL·E 2和 Google 的 Imagen，都是基于扩散模型来完成的。...

2022-08-04 00:31:45 7255 1

原创【自动微分实现】反向OO实现自动微分（Pytroch核心机制）

这里记录一下使用操作符重载（OO）编程方式的自动微分，其中数学实现模式则是使用反向模式（Reverse Mode），综合起来就叫做反向OO实现AD啦。

2022-07-31 13:44:31 904 1

原创 EfficientFormer：轻量化ViT Backbone

MobileViT 结构上基本基于 MobileNet V2 而改进增加了 MobileViT block，但是同样能够实现一个不错的精度表现，文章实验部分大量的对比了 MobileViT 跟 CNN 和 ViT 模型的参数量和模型大小，不过值得一提的是在端侧除了模型大小以外，更加重视模型的性能，只能说这篇文章经典之处是开创了 CNN 融合 ViT 在端侧的研究。...

2022-07-22 16:54:51 1180

原创 MobileViT：挑战MobileNet端侧霸主

2022-07-21 00:11:48 1103 1

原创 DeiT：注意力Attention也能蒸馏

DeiT 是一个全 Transformer 的架构。其核心是提出了针对 ViT 的教师-学生蒸馏训练策略，并提出了 token-based distillation 方法，使得 Transformer 在视觉领域训练得又快又好。

2022-07-20 00:21:27 1872 1

原创 MoCo V3：视觉自监督迎来Transformer

今天介绍 MoCo 系列第三版，MoCo v1 和 v2 是针对 CNN 设计的，而 MoCo v3 是针对 Transformer 结构设计的，反映了 MoCo 系列对视觉模型的普适性。

2022-07-18 22:28:34 4679

原创 MoCo V2：MoCo系列再升级

今天介绍 MoCo 系列第二版 MoCo v2 就是在 SimCLR 发表后结合了 SimCLR 优点的图像自监督学习方法，MoCo v1 和 v2 是针对 CNN 设计的，而 MoCo v3 是针对 Transformer 结构设计的，反映了 MoCo 系列对视觉模型的普适性。...

2022-07-18 22:26:37 2812

原创 MoCo V1：视觉领域也能自监督啦

何凯明从 CVPR 2020 上发表的 MoCo V1（Momentum Contrast for Unsupervised Visual Representation Learning），到前几天挂在arxiv上面的 MoCo V3（An Empirical Study of Training Self-Supervised Visual Transformers），MoCo一共走过了三个版本。...

2022-07-18 22:22:38 657

原创 MindSpore Python编程规范

本规范以[PEP8](https://www.python.org/dev/peps/pep-0008/)为基础，参考华为Python通用编码规范、安全编程规范，并结合业界共识整理而成，参与MindSpore社区开发需要首先遵循本规范内容（与PEP8冲突部分），其余遵循PEP8规范。...

2022-06-22 23:37:00 1118

原创【自动微分实现】前向操作符重载AD

在这篇文章里，ZOMI会介绍是怎么实现自动微分的，因为代码量非常小，也许你也可以写一个玩玩。前面的文章当中，已经把自动微分的原理深入浅出的讲了一下，也引用了非常多的论文。有兴趣的可以顺着综述A survey这篇深扒一下。

2022-05-26 20:00:37 245

原创【自动微分原理】具体实现方式

第一篇自动微分原理文章中我们大概初步谈了谈从手动微分到自动微分的过程，第二篇自动微分正反模式中深入了自动微分的正反向模式具体公式和推导。实际上第二章了解到正反向模式只是自动微分的原理模式，在实际代码实现的过程，正方向模式只是提供一个原理性的指导，在真正编码过程会有很多细节需要打开，例如如何解析表达式，如何记录反向求导表达式的操作等等。这一篇文章中，ZOMI希望通过介绍目前比较热门的方法给大家普及一下自动微分的具体实现。【自动微分原理】01. 原理介绍【自动微分原理】02. 正反模式【自动微分

2022-05-26 09:30:43 935

原创【自动微分原理】02. 自动微分的正反模式

本章将深入介绍AI框架离不开的核心功能自动微分，而自动微分则是分为前向微分和后向微分两种实现模式，不同的实现模式有不同的机制和计算逻辑，而无论哪种模式都离不开雅克比矩阵，所以我们也会深入了解一下雅克比矩阵的原理。

2022-05-22 20:31:36 982 2

原创【自动微分原理】01. 自动微分的原理介绍

自动微分（Automatic Differentiation，AD）是一种对计算机程序进行高效准确求导的技术，一直被广泛应用于计算流体力学、大气科学、工业设计仿真优化等领域。而近年来，机器学习技术的兴起也驱动着对自动微分技术的研究进入一个新的阶段。随着自动微分和其他微分技术研究的深入，其与编程语言、计算框架、编译器等领域的联系愈发紧密，从而衍生扩展出更通用的可微编程概念。本章将从常见的微分方法开始介绍，然后深入自动微分基本概念。

2022-05-22 15:06:51 964

原创 Vision Transformer图像分类(MindSpore实现)

Vision Transformer进行图像分类Vision Transformer（ViT）简介近些年，随着基于自注意（Self-Attention）结构的模型的发展，特别是Transformer模型的提出，极大的促进了自然语言处理模型的发展。由于Transformers的计算效率和可扩展性，它已经能够训练具有超过100B参数的空前规模的模型。ViT则是自然语言处理和计算机视觉两个领域的融合结晶。在不依赖卷积操作的情况下，依然可以在图像分类任务上达到很好的效果。模型结构ViT模型的主体结构是基于

2022-05-13 13:26:20 3659 1

原创分布式训练的通讯原语

在深度学习框架中，分布式训练的通讯原语和通讯实现方式对AI框架分布式训练起着非常重要的作用，如果想要训练大模型（Foundation Model）肯定离不开进行通讯操作，下面橙色标签的是分布式训练中通讯原语在AI框架中的的位置。

2022-02-10 23:13:47 3181

原创模型压缩：剪枝算法

过参数化主要是指在训练阶段，在数学上需要进行大量的微分求解，去捕抓数据中的微小变化信息，一旦完成迭代式的训练之后，网络模型推理的时候就不需要这么多参数。而剪枝算法正是基于过参数化的理论基础而提出的。

2022-01-26 19:16:26 1449 1

原创模型压缩明珠：二值化网络

相比于全精度（FP32）表示的神经网络，二值化可以用XNOR（逻辑电路中的异或非门）或者是简单的计数操作（pop Count），极其简单的组合来代替FP32的乘和累加等复杂的运算来实现卷积操作，从而节省了大量的内存和计算，大大方便了模型在资源受限设备上的部署。

2022-01-14 09:26:50 2233

原创机器学习和深度学习的区别

机器学习和深度学习算法流程终于考上人工智能的研究僧啦，不知道机器学习和深度学习有啥区别，感觉一切都是深度学习挖槽，听说学长已经调了10个月的参数准备发有2000亿参数的T9开天霹雳模型，我要调参发T10准备拿个Best Paper 现在搞传统机器学习相关的研究论文确实占比不太高，有的人吐槽深度学习就是个系统工程而已，没有数学含金量。但是无可否认的是深度学习是在太好用啦，极大地简化了传统机器学习的整体算法分析和学习流程，更重要的是在一些通用的领域任务刷新了传统机器学习算法达..

2022-01-10 19:51:27 396

原创 AI系统——梯度累积算法

在深度学习训练的时候，数据的batch size大小受到GPU内存限制，batch size大小会影响模型最终的准确性和训练过程的性能。在GPU内存不变的情况下，模型越来越大，那么这就意味着数据的batch size智能缩小，这个时候，梯度累积（Gradient Accumulation）可以作为一种简单的解决方案来解决这个问题。

2022-01-08 21:16:30 983

原创全网最全-网络模型低比特量化

随着深度学习的发展，神经网络被广泛应用于各种领域，模型性能的提高同时也引入了巨大的参数量和计算量。模型量化是一种将浮点计算转成低比特定点计算的技术，可以有效的降低模型计算强度、参数大小和内存消耗，但往往带来巨大的精度损失。尤其是在极低比特(<4bit)、二值网络(1bit)、甚至将梯度进行量化时，带来的精度挑战更大。这篇文章比较详细，所以下面这个图是这篇文章的一个整体目录。当然啦，除了非常多的文字，这篇文章塞了59个公式，涉及到量化在推理和训练的内容。虽然可能看得很辛苦，但是也希望可以多多支持ZOMI酱

2022-01-07 00:53:13 2747

原创全网最全-超大模型+分布式训练架构和经典论文

全网最全的超大模型和分布式训练架构梳理，并附上经典论文简介。

2021-12-28 16:48:58 4265

原创全网最全-神经网络混合精度训练原理

如图所示在网络模型训练阶段，激活函数的梯度分布式中，有67%的精度小于2^24，直接使用FP16进行表示会截断下溢的数据，这些梯度值都会变为0。通常我们训练神经网络模型的时候默认使用的数据类型为单精度FP32。近年来，为了加快训练时间、减少网络训练时候所占用的内存，并且保存训练出来的模型精度持平的条件下，业界提出越来越多的混合精度训练的方法。这里的混合精度训练是指在训练的过程中，同时使用单精度（FP32）和半精度（FP16）。

2021-12-06 00:24:01 1837 3

原创大模型的发展与解决的问题

目前Foundation Model或者是大模型，特别地火，接下来介绍什么是大模型，大模型的基本概念；接着看看大模型的实际作用，然后基于这些实际作用，我们简单展开几个应用场景。最后就是介绍支持大模型训练的AI框架。在往下看之前，想抛出几个问题，希望引起大家的一个思考：1）为什么预训练网络模型变得越来越重要？2）预训练大模型的未来的发展趋势，仍然是以模型参数量继续增大吗？3）如何预训练一个百亿规模的大模型？Foundation Model2021年8月份，李飞飞和100多位学者联名发表

2021-11-13 12:09:16 4818

原创从分布式训练到大模型训练

要了解大模型训练难，我们得先看看从传统的分布式训练，到大模型的出现，需要大规模分布式训练的原因。接着第二点去了解下大规模训练的挑战。从分布式训练到大规模训练常见的训练方式是单机单卡，也就是一台服务器配置1块AI芯片，这是最简单的训练方式。随着数据量的增加，希望加快模型的训练速度，于是出现了单机多卡，多块AI芯片并行，以一台机器上配置8块AI芯片为例，把数据切分成8份，分别在8块AI芯片上都跑一次BP算法，计算出梯度，然后所有AI芯片上计算出的梯度进行平均，更新模型参数。这样的话，以前一次BP只能训练

2021-11-12 09:35:56 3804

原创所谓的AI芯片到底指什么？

进入公司AI产业快有3个年头，AI芯片和传统芯片，甚至AI芯片和GPU，还有AI芯片的发展历史，面向未来场景的挑战都有很多话题，下面我们一起来聊聊AI芯片和传统芯片的区别哈。芯片是半导体元件产品的统称，而集成电路，缩写是IC，就是将电路小型化，通过电子学和光学，将电路制造在半导体晶圆上面。我们会分为4个小点进行介绍AI芯片前言解读。首先是AI芯片从CPU、GPU、到XPU的发展情况总体介绍，接着是AI芯片都有哪些系统架构，基于不同的系统架构，又引申出不同的AI芯片。第三部分来整体看看，AI芯片的产业

2021-11-05 23:31:04 4222

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

NVIDIA十代GPU架构回顾(从Fermi费米到Volta伏特)

【AI框架基础】系列第四篇！最后一篇啦，函数式编程和声明式编程有什么区别？AI到底应该用什么编程范式？

【AI框架基础】系列第三篇！AI框架之争！都2022年，还在为用什么AI框架发愁？

【AI框架基础】系列第二篇！AI框架有什么用？没有AI框架开发算法会遇到什么难题？

【AI框架基础】系列第一篇！介绍分享内容！AI框架基础、AI框架之争、AI编程范式！

【自动微分】系列第七篇！自动微分挑战和未来！自动微分易用性和性能应该如何兼容？可微编程是否未来？

【自动微分】系列第六篇！手把手实现一个PyTorch！实现PyTorch核心自动微分！

【自动微分】系列第五篇！使用Python的高级语言特性，亲自实现一个正向自动微分框架！

【自动微分】系列第四篇！自动微分的实现方式！基于库实现、基于操作符重载实现、基于源码转换实现！

【自动微分】系列第三篇！微分的两种模式！前向微分和正向微分！对应反向传播！

【自动微分】系列第二篇！符号微分/数值微分/自动微分的区别是什么？

【自动微分】系列第一篇！自动微分小内容的介绍！

空空如也