在近日举行的“2022中国人工智能产业年会”主论坛上,中国人工智能学会监事长、中国工程院院士蒋昌俊在报告中表示,人工智能的发展已经历了数十年的过程,大模型ChatGPT在今年春节前后突然出现,大家还没有来得及深度思考就已经“扑面而来”。
蒋昌俊
大智能的研究进展
科学技术的研究约分为两大范式,一是牛顿力学奠定了理论计算的范式,二是开普勒开启数据的范式。之后经历了实验归纳、理论的逻辑推演,以及计算模拟、最近的数据密集型科学发现等。特别是近来基于数据的科学发现,主要用大数据拟合高纬度复杂函数以发现其内涵规律与模式的过程,被称为第四范式。
人脑是利用过去的背景知识和感知的现行数据确定决策;大模型是通过学习模型适应下游任务以完成机器的决策。在这一过程中,大模型综合部分通用任务的结果,并且给下游任务较好的表征,类似于人脑中背景知识提供的经验,也类似于人脑在具有背景知识的情况下较快适应新环境。
传统模型一般规模比较小,比如专家系统、知识库等。它是具有一些知识推理的模型,少量的专有知识能在小算力的情况下通过集中式算法的处理,因此所能解决的问题也相对有限。而大模型不一样,在算力、数据和模型方面有着大规模的提升。它在海量的泛化数据中,在大算力的支持下通过分布式算法驱动,使其具有泛化知识的推理模型。
大算力的支撑导致大智能。超大规模模型参数的算法即超多层的神经网络,数据是超大规模的数据样本,算力是超大规模的计算范畴。在这样的条件下,我们对自然语言的理解与处理显然有着集聚效应。因此此次的大模型跃迁可以归结为大模型算法的优化,一方面提升数据的利用率,同时也缓解算力的需求瓶颈。这是我们从大模型、大数据中挖掘出复杂规律的方式。
大模型的优化经历了几个过程。首先是早期的统计语言模型,然后进入面向特定任务的神经网路嵌入式模型,再到基于深度学习的预处理模型。预训练模型为自然语言的处理提供了好的表征。ChatGPT是自然语言处理最新的衍生品。这一过程在一些具体事务中的表现,比如在美国高校的入学资格考试中其取得的平均成绩为中等水平。如同AlphaGo早期与人类的博弈一样,它可以进行自训练,无止境地提高自身水平。AlphaGo所拓展的空间远远强于人类,在博弈过程中的见识比人类更广。但反过来说,围棋毕竟是有限空间,在19×19的棋盘中下棋是有规则的。ChatGPT数据空间的样本是无限的,过程没有固定规则可言,所以它的问题更加复杂。在这一情况下ChatGPT能够接近人类的基本水平,令我们非常惊讶。
大模型里关键技术主要包括语言的生成、上下文的学习和世界知识。三种能力来自大模型的预训练过程、代码训练、指令微调,再基于人类反馈的强化学习。目前ChatGPT4已经出现,这一过程在学术界引起强烈的反响。比如杰弗里・辛顿对此一开始保持沉默,但最近他离开了谷歌并表达深度担忧。
卷积神经网络和循环神经网络是其中的关键技术,Transformer的过程被特别留意。ChatGPT的发展再到基础的模型、Transformer的优化,加上算力和数据的“给力”,使得这一次大模型的表现非常不一般。大模型关键技术还包括思维链,它将认知过程划分为若干阶段,每个阶段再进行细化和表征。思维链在研究认知行为的过程中起了非常重要的作用,就是将一个较大的问题划分为小问题,并且预测出思维过程给出提示。在大模型方面可以更好地利用语料数据库,给出更精确的推理。对于每个提示的输出思维过程,一定程度上能对模型的输出作出解释。
大智能的发展趋势
大智能包括三个方面——大模型、大算力和大数据。它的研究趋势之一是继续通过数据、算力和算法的规模,在变化的量变过程求得质变。在量变求涌现的过程中,在垂直方向可以看到数据、算法和算力的表现。一是高质量数据, 因为数据的质量非常重要;二是高效能算法和高效用算力,可以保证认知过程的准确性与精准性。在这些方面我们仍在不断地探索和研究,在数据方面通过多模态数据的采集提高数据效用。在算法方面,算法效力的提高是我们追求的目标;在算力方面,算力有效的效能行为也能有所推进和进展。
大模型的垂直化是大智能的第二个趋势。一个是领域基础模型,另一个是行业基础模型。比如受到关注的安全风控基础模型——当然这不光是在某个行业,而是相关行业都有的共性问题。如具体落在金融行业,其金融业务的基础模型是行业的基础模型。如同人类知识架构一样,在通用的知识基础上如何应用领域与行业的常识,这是垂直化的重要趋势。当然在这个过程中也面临了一些问题。比如产业现状是直接使用基础模型,往往会与场景上专业的应用需求有一定差距,它的问题就表现在缺乏行业的知识、使用的门槛比较高,部署相对比较困难。这是目前我们所面临的三大基础问题。
针对垂直化行业大模型的产业模式问题,一从社会化的分工入手,二从工业化的大生产入手,从行业任务一直囊括行业业务数据以及语料和知识。大模型平台相对应的是行业大模型、通用大模型和通用大数据,从数据中筛选出有效的知识和利用。所以总体而言,它的垂直化是全产业协同,从数据角度来看,包括静态数据、传输中的数据等数据共享机制。另外,行业大模型聚焦具体的行业属性,加速智能化升级。基础大模型的科研成果落地要有具体应用,从数据中获取知识是其共性的追求目标。
大模型面临的种种挑战
现在各大行业都在纷纷尝试建立各自的大模型。在垂直行业中,算力供给也面临挑战,一是需要实时更新,时效性的领域知识需要实时更新,需要全面满足多样性的服务类型,适应各自相关的业务需要。二是需要及时响应,特别是对一些突发性的计算任务,比如金融交易领域的风险控制往往较多面临突发性的情况,这时需要垂直领域的算力供给,要适应随需即用的特性。
在综合性算力供给方面,算力的汇聚包括从端上数据、边缘数据到云际间的数据。在基于算网的组合方面需要算网智能、供需的平衡、统一编排等,这些技术都需要予以加强。此外还要按需使用,如在智能推理、不同的工业互联网环境、远程医疗等都有不同需求。特别是在机动性强的领域,算力的专配非常重要。根据需求,可伸缩性、可扩展性生成定制化的算力供给。在这一过程中我们建立了方舱计算模式,将算力、算法和数据三合一,形成机动性强、供应性比较灵活的方式,这对整体性算网是非常重要的。
模型风险也是风险之一。模型风险就是要解决一些虚假性问题即去风险,这是进一步开发基础性模型的核心挑战之一。同时还包括安全性问题、数据风险、侵权等。数据的隐私将面临更加严峻的挑战,如何保护隐私问题是在大模型安全中必须考虑到的。此外还有安全中的多元风险,将算力、算法和数据叠加,其数据安全、系统安全和模型安全融合后的整体性安全问题,都是需要考虑的基础性问题。
大模型的发展趋势从安全化、可信可控的模型,单一行业向大模型的垂直行业、垂直领域不断去拓展,从而带来的社会化问题应该引起高度重视。总结而言,一是大智能研究进展是“丰富数据+扩大模型+增投算力”,从而生成“思维链+自注意力机制”这一关键性要领。二是大模型的发展趋势,从量变求涌现以及大模型的垂直化和大模型安全性的增强,这些问题必须予以关注。
(根据“2022 中国人工智能产业年会”报告整理,有删减)
如何系统的去学习大模型LLM ?
作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。
但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的 AI大模型资料
包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
😝有需要的小伙伴,可以V扫描下方二维码免费领取🆓
一、全套AGI大模型学习路线
AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
二、640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
三、AI大模型经典PDF籍
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
四、AI大模型商业化落地方案
阶段1:AI大模型时代的基础理解
- 目标:了解AI大模型的基本概念、发展历程和核心原理。
- 内容:
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践 - L1.5 GPT应用案例
阶段2:AI大模型API应用开发工程
- 目标:掌握AI大模型API的使用和开发,以及相关的编程技能。
- 内容:
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例 - L2.2 Prompt框架
- L2.2.1 什么是Prompt
- L2.2.2 Prompt框架应用现状
- L2.2.3 基于GPTAS的Prompt框架
- L2.2.4 Prompt框架与Thought
- L2.2.5 Prompt框架与提示词 - L2.3 流水线工程
- L2.3.1 流水线工程的概念
- L2.3.2 流水线工程的优点
- L2.3.3 流水线工程的应用 - L2.4 总结与展望
- L2.1 API接口
阶段3:AI大模型应用架构实践
- 目标:深入理解AI大模型的应用架构,并能够进行私有化部署。
- 内容:
- L3.1 Agent模型框架
- L3.1.1 Agent模型框架的设计理念
- L3.1.2 Agent模型框架的核心组件
- L3.1.3 Agent模型框架的实现细节 - L3.2 MetaGPT
- L3.2.1 MetaGPT的基本概念
- L3.2.2 MetaGPT的工作原理
- L3.2.3 MetaGPT的应用场景 - L3.3 ChatGLM
- L3.3.1 ChatGLM的特点
- L3.3.2 ChatGLM的开发环境
- L3.3.3 ChatGLM的使用示例 - L3.4 LLAMA
- L3.4.1 LLAMA的特点
- L3.4.2 LLAMA的开发环境
- L3.4.3 LLAMA的使用示例 - L3.5 其他大模型介绍
- L3.1 Agent模型框架
阶段4:AI大模型私有化部署
- 目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。
- 内容:
- L4.1 模型私有化部署概述
- L4.2 模型私有化部署的关键技术
- L4.3 模型私有化部署的实施步骤
- L4.4 模型私有化部署的应用场景
学习计划:
- 阶段1:1-2个月,建立AI大模型的基础知识体系。
- 阶段2:2-3个月,专注于API应用开发能力的提升。
- 阶段3:3-4个月,深入实践AI大模型的应用架构和私有化部署。
- 阶段4:4-5个月,专注于高级模型的应用和部署。
这份完整版的大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓