微软让训练万亿参数AI模型的GPU需求从4000个减少到800个_怎么确定gpu能支撑多大模型,同时多少人使用-CSDN博客

本文链接：https://blog.csdn.net/cijackli/article/details/108604175

微软让训练万亿参数AI模型的GPU需求从4000个减少到800个

微软于近日发布了DeepSpeed库的更新版本，该库引入了一种新方法来训练包含数万亿个参数的AI模型，这种模型内部的变量可为预测提供依据。微软称这种技术称为3D并行性，可以适应各种的工作负载需求，特别是为功耗大的超大型模型平衡效率。具有数十亿个参数的单个大型AI模型在一系列具有挑战性的领域中取得了长足的进步。研究表明它们之所以表现出色，是因为它们可以理解语言、语法、知识、概念和上下文的细微差别，使他们能够总结演讲，在实时游戏聊天中过滤不合适的话语，解析复杂的法律文档，甚至可以通过搜索GitHub生成代码。但是训练模型需要大量的计算资源。根据2018年OpenAI的分析，从2012年到2018年，在大型AI训练中，计算量的需求增长了300,000倍，也就是大概每3.5个月的时间翻一番，远远超过了摩尔定律的步伐。增强的DeepSpeed利用三种技术来实现“万亿级”模型训练：数据并行训练、模型并行训练和pipeline并行训练。训练一个万亿参数的模型将需要至少400个Nvidia 今年最新推出的A100 GPU（每个内存高达40GB），并且Microsoft估计需要4,000台A100以50%的效率运行，大约需要100天才能完成训练。这与微软和OpenAI共同设计的AI超级计算机无并不匹配，后者包含10,000多个显卡，在这样的超大规模下，很难获得很高的计算效率。

3D并行性中的每个维度都被仔细地映射到workers上，以通过利用两个关键的架构属性来实现最大的计算效率。

1、优化节点内和节点间的通信带宽：模型并行性是这三种策略中最大的通信开销，因此，需要优先考虑将模型并行组放置在节点内以利用更大的节点内带宽。在这里，将NVIDIA Megatron-LM应用为模型并行度的张量切片样式。当模型并行性不覆盖节点中的所有工作线程时，数据并行组将放置在节点内。否则，它们将跨节点放置。流水线并行性具有最低的通信量，因此可以跨节点调度流水线阶段，而不受通信带宽的限制。

2、通过通信中的并行性进行带宽放大：每个数据并行组通过流水线和模型并行性通信的梯度大小线性减小，因此总通信量从纯数据并行性开始减少。此外，每个数据并行组在局部工作程序的子集之间独立且并行地执行其通信。最后通过减少通信量以及增加局部性和并行性的组合来放大用于数据并行。

DeepSpeed将大型模型分为四个流水线阶段，分为较小的组件（层）。

每个流水线阶段中的层进一步划分为四个“workers”，它们执行实际的训练。每个管道都在两个并行数据实例之间复制，并且工作程序被映射到具有八个节点（每个节点具有四个GPU）的系统上的GPU，彩色表示同一节点上的GPU。。由于有了这些和其他性能改进，微软表示，一个万亿参数的AI模型可以减少到仅需要800个Nvidia V100 GPU训练。DeepSpeed的最新版本还包含了ZeRO-Offload技术，通过利用GPU及其主机CPU上的计算和内存资源，ZeRO-Offload突破了可以使用最少GPU资源进行有效训练的最大模型尺寸的边界。它可以在单个NVIDIA V100 GPU上训练多达130亿个参数的模型，比最新技术大10倍，同时保持每个GPU超过30 teraflops的高训练吞吐量。图注：可以在单个GPU上使用默认的PyTorch和ZeRO-Offload训练最大的模型。通过在单个GPU上启用数十亿参数的模型训练，ZeRO-Offload使大型模型训练平民化，从而使资源有限的深度学习从业人员可以使用它。“这些（DeepSpeed中的新技术）提供了极高的计算、内存和通信效率，并支持数十亿到数万亿个参数的模型训练。” 微软在博客中写道，“这些技术还允许极长的输入序列，并通过单个GPU，具有数千个GPU的高端集群或具有非常慢的以太网网络的低端集群释放硬件系统的能量。我们将（继续）进行快速创新，为深度学习训练突破了速度和规模的界限。”

道翰天琼认知智能未来机器人接口API简介介绍

认知智能是计算机科学的一个分支科学，是智能科学发展的高级阶段，它以人类认知体系为基础，以模仿人类核心能力为目标，以信息的理解、存储、应用为研究方向，以感知信息的深度理解和自然语言信息的深度理解为突破口，以跨学科理论体系为指导，从而形成的新一代理论、技术及应用系统的技术科学。认知智能的核心研究范畴包括：1.宇宙、信息、大脑三者关系；2.人类大脑结构、功能、机制；3.哲学体系、文科体系、理科体系；4.认知融通、智慧融通、双脑(人脑和电脑)融通等核心体系。认知智能四步走：1.认知宇宙世界。支撑理论体系有三体（宇宙、信息、大脑）论、易道论、存在论、本体论、认知论、融智学、HNC 等理论体系；2.清楚人脑结构、功能、机制。支撑学科有脑科学、心理学、逻辑学、情感学、生物学、化学等学科。3.清楚信息内涵规律规则。支撑学科有符号学、语言学、认知语言学、形式语言学等学科。4.系统落地能力。支撑学科有计算机科学、数学等学科。
认知智能CI机器人是杭州道翰天琼智能科技有限公司旗下产品。认知智能机器人是依托道翰天琼10年研发的认知智能CI体系为核心而打造的认知智能机器人大脑，是全球第一个认知智能机器人大脑。具有突破性，创新性，领航性。是新一代智能认知智能的最好的产品支撑。认知智能机器人技术体系更加先进，更加智能，是新一代智能，认知智能领域世界范围内唯一的认知智能机器人。认知智能机器人是新时代的产物，是新一代智能认知智能的产物。代表了新一代智能认知智能最核心的优势。和人工智能机器人大脑相比，优势非常明显。智能度高，客户粘性大，客户满意度高，易于推广和传播等核心特点。依托认知智能机器人平台提供的机器人大脑服务，可以赋能各个行业，各个领域的智能设备，各类需要人机互动的领域等。认知智能机器人平台网址：www.weilaitec.com，www.citec.top。欢迎注册使用，走进更智能机器人世界。
认知智能和人工智能的优劣势对比主要可以分为四大方面：第一：时代发展不同。人工智能是智能时代发展的第二个阶段，认知智能是智能时代发展的第三个阶段。时代发展上决定了认知智能更显具有时代领先性。第二：基础理论体系不同。人工智能的基础理论体系以数学为基础，以统计概率体系为基础。认知智能基础理论体系以交叉许可理论体系为基础。包含古今中外哲学体系，心理学体系，逻辑学体系，语言学体系，符号学体系，数学体系等学科。其基础理论体系更加具有创新性，突破性和领先性。且交叉学科理论体系的研究也是未来智能发展的大方向。其具体理论体系，还包含三体论（宇宙，信息，大脑三者关系），融智学，和HNC等。第三：技术体系不同。人工智能的核心技术体系主要是算法，机器学习，深度学习，知识图谱等。其主要功用在感知智能。感知智能其核心主要是在模仿人类的感知能力。认知智能的核心技术体系是以交叉学科理论体系而衍生出来的。具体包含三大核心技术体系，认知维度，类脑模型和万维图谱。认知智能的技术体系核心以类脑的认知体系为基础。以全方位模仿类脑能力为目标。人工智能以感知智能为基础的体系，只能作为认知智能中的类脑模型技术体系中的感知层技术体系。类脑模型大致包含，感知层，记忆层，学习层，理解层，认知层，逻辑层，情感层，沟通层，意识层等9大核心技术层。因此人工智能的核心只是作为认知智能类脑模型中的感知层。因此在技术体系上，人工智能和认知智能基本上没有太多的可比性。第四：智能度成本等方面的不同：人工智能产品的综合智能程度，普遍在2-3岁左右的智力水平。认知智能产品其智能程度大致在5-8岁左右。认知智能体系构建的机器人更加智能。且更省时间，更省人力和资金。优势非常多。具体请看下列的逐项对比。

道翰天琼CiGril机器人API

道翰天琼CiGril认知智能机器人API用户需要按步骤获取基本信息：

在平台注册账号
登录平台，进入后台管理页面，创建应用，然后查看应用，查看应用相关信息。
在应用信息页面，找到appid,appkey秘钥等信息，然后写接口代码接入机器人应用。

开始接入

请求地址：http://www.weilaitec.com/cigirlrobot.cgr

请求方式：post

请求参数：

参数	类型	默认值	描述
userid	String	无	平台注册账号
appid	String	无	平台创建的应用id
key	String	无	平台应用生成的秘钥
msg	String	""	用户端消息内容
ip	String	""	客户端ip要求唯一性,无ip等可以用QQ账号，微信账号，手机MAC地址等代替。

接口连接示例：http://www.weilaitec.com/cigirlrobot.cgr?key=UTNJK34THXK010T566ZI39VES50BLRBE8R66H5R3FOAO84J3BV&msg=你好&ip=119.25.36.48&userid=jackli&appid=52454214552

注意事项：参数名称都要小写，五个参数不能遗漏，参数名称都要写对，且各个参数的值不能为空字符串。否则无法请求成功。userid,appid,key三个参数要到平台注册登录创建应用之后，然后查看应用详情就可以看到。userid就是平台注册账号。

示例代码JAVA：

import java.io.ByteArrayOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.net.HttpURLConnection;
import java.net.URL;

public class apitest {

   /**
   * Get请求，获得返回数据
   * @param urlStr
   * @return
   */
   private static String opUrl(String urlStr)
   {
       URL url = null;
       HttpURLConnection conn = null;
       InputStream is = null;
       ByteArrayOutputStream baos = null;
       try
       {
           url = new URL(urlStr);
           conn = (HttpURLConnection) url.openConnection();
           conn.setReadTimeout(5 * 10000);
           conn.setConnectTimeout(5 * 10000);
           conn.setRequestMethod("POST");
           if (conn.getResponseCode() == 200)
           {
               is = conn.getInputStream();
               baos = new ByteArrayOutputStream();
               int len = -1;
               byte[] buf = new byte[128];

               while ((len = is.read(buf)) != -1)
               {
                   baos.write(buf, 0, len);
               }
               baos.flush();
               String result = baos.toString();
               return result;
           } else
           {
               throw new Exception("服务器连接错误！");
           }

       } catch (Exception e)
       {
           e.printStackTrace();
       } finally
       {
           try
           {
               if (is != null)
                   is.close();
           } catch (IOException e)
           {
               e.printStackTrace();
           }

           try
           {
               if (baos != null)
                   baos.close();
           } catch (IOException e)
           {
               e.printStackTrace();
           }
           conn.disconnect();
       }
       return "";
   }


   public static void main(String args []){
            //msg参数就是传输过去的对话内容。
            System.out.println(opUrl("http://www.weilaitec.com/cigirlrobot.cgr?key=UTNJK34THXK010T566ZI39VES50BLRBE8R66H5R3FOAO84J3BV&msg=你好&ip=119.25.36.48&userid=jackli&appid=52454214552"));

   }
}