【人人都能看懂的大模型原理】(一)

前言

当前大模型的学习资源呈现爆发趋势,各种角色的人都用自己的视角参与到大模型的讨论。但是我发现这些学习资源都有几个特点:只摆事实而不讲道理;只讲应用可能而不提实现代价;只讲可能性而缺乏实操经验分享;洞察材料比比皆是而缺乏深入分析。当然,大模型的技术体系非常庞大,全面了解非常困难。从横向来看,涉及到语言大模型到多模态大模型;从纵向来看,又涉及算法、模型、分布式软件、集群等专业知识。作者认识到社区缺乏一些学习资料,能够将复杂问题简单化,并且不失深度地介绍大模型的基本原理和技术。本文尝试对大模型的机器学习原理进行统一,并且绕过复杂的公式化表达和推导,给读者深入浅出的理论解释,帮助读者拨开大模型神秘面纱。作者认为只有深刻理解了理论原理,才能应对千变万化的应用需求。本文章适合各个角色的人阅读,包括BD、SA、PLM、研发和各层管理者。

在这里插入图片描述

一、大模型的外在表现和现实意义

1.1 泛化性和边际成本问题

最近几年,大模型甚嚣尘上。特别是自ChatGPT推出之后,大街小巷都在讨论大模型。那么大模型为什么吸引了如此多的注意力呢?大模型到底解决什么什么现实问题?人类经历了第一波深度学习热潮和退潮之后,体会到第一波深度学习解决问题的严重问题。并且在大模型身上看到了问题彻底解决的曙光。自深度学习爆发以来,大模型进入了千行百业。从最早的监控和泛娱乐行业,到后来的工业生产,深度学习技术都和行业紧密结合。本文作者自己经历了整个过程,从刚进公司部门200人到现在的2000人,作者经历了AI进入千行百业的完整过程。

然而,AI进入千行百业过程中出现了一个严重违背商业逻辑的现象。那就是边际成本没有随着规模的增长而降低。一个合理的商业scale law是一次投入,千万次复制,最终边际成本趋向于零。然而,由于上一波AI浪潮中,深度学习表现出非常差的泛化性,导致只要切换一个场景,都需要研发人员参与定制。 比如最常见的人脸识别技术,手机认证的人脸识别模型和监控的人脸识别模型无法通用。甚至一些场景由于背光或者逆光问题,都将重新开发模型。在工业领域,这种现象就更加明显,在工业检测中,摄像机安装角度的改变,或者检测目标的改变,都需要重新定制模型。这就导致你无法做一个通用模型,然后无限推广。因此上一波AI技术浪潮中,大多数创业公司盈利都非常困难,除了少数在大场景下获得足够市场空间的几家公司成功上市以外,绝大多数AI创业公司都很难长大。如此之下,AI进入千行百业就变成一句空话了,因为并非所有的行业都有高额利润。那些低利润行业(农业、低端制造业)都无法享受AI的红利。当然,小模型的泛化性差的原因有很多,比如信号的变化太多,信号模式挖掘不够充分等等,作者在此不再分析。

大模型因为其巨大的学习量天生具备更加优良的泛化性。这让大家看到了解决模型泛化性,甚至达到通用人工智能(AGI)的曙光。当然,这也吸引了无数的资本。

1.2 传统降低边际成本方案

​ 在讲大模型是如何提升泛化性之前,我们不妨回顾一下过去几年,我们降低边际成本的一些方案。这些方案从一定程度上降低边际成本,但是泛化性明显还是不足。

1.2.1 ModelArts Pro工作流

​ 在传统AI模型开发过程中,模型泛化性太差,导致需要不断进行迭代优化。并且切换一个相似的任务,也需要重新开发一次。效率非常低下。比如OCR任务需要解决非常多不同种类的表单的识别。而小模型又无法进行通用识别。因此需要反复开发模型应对各种发票、身份证、驾驶证等等。但是我们发现,其实每一次迭代或者相似任务的重新开发,流程都差不多。基本上表现为收集数据、标注、训练、转模型、部署推理引擎。

如此多重复的劳动,能否借助工具来提升呢。ModelArts Pro的设计理论就源于此。先在平台中内置某一些大类任务的完整训练代码,然后通过工作流的方式暴露部分接口,并自动化运行剩下的部分。

1.2.2 ModelArts数据回流和主动学习

​ 传统AI开发范式中还有一个特点,就是算法开发者大部分时间都在治理数据,包括数据采集、标注和质量治理。这部分时间占比因任务不同而不同。如遇到数据很稀缺的场景,那么这部分工作就变得非常繁重。为了应对这个问题,ModelArts开发了自动数据回流系统,能够在POC阶段介入用户系统,并快速实现数据的自动收集。配合主动学习策略对数据进行筛选,以获得对模型完备性有利的数据。

1.2.3 半监督学习

​ 数据标注同样是一项非常繁琐的工作。如果能够减少这部分工作量能够极大加速开发流程。半监督学习是非常有效的解决手段,通过极少数的标注,甚至弱标注,就能够训练一个媲美全监督训练的模型。下图1.6是半监督学习的三大理论方案,在此不再赘述。

1.3 大模型的智能涌现

以ChatGPT为代表的大模型引起用户广泛兴趣的重要特点是智能的涌现。过去的模型虽然也有智能的产生,但是没有表现出涌现现象。ChatGPT的智能涌现表现为三方面。

1.3.1 Few Shot或Zero Shot能力的涌现

所谓Few Shot和Zero Shot是指模型不需要学习新样本或者学习少数几个样本,就能学习到新的智能。这种能力让人产生一种误解,认为AI已经达到人的学习能力了,能够举一反三。但是理论上并非如此,我们在后文会慢慢揭晓迷雾。不过抛开理论,大模型的确表现出了这种能力,并且在一定范围内可以被广泛运用。

1.3.2 思维链能力的涌现

​ 思维链能力是大模型最为惊人的表现。所谓思维链是指大模型能够依据思维链针对问题进行分析和推理。最典型表现是可以完成各种考试题目,编写代码,甚至能够针对问题和现象进行因果分析。下图1.8给出一个实际的案例。思维链能力给人一种错觉,觉得AI似乎具备了人的逻辑推理能力。大模型的思维链能够在广泛应用于很多依赖简单推理的场景,比如故障诊断、病例诊断等。并且为了增强思维链,科学家也发明了增强思维链能力的方法。

1.3.3 创新能力的涌现

​ 大模型的创新能力是最早被开发者广泛使用的能力,最早用在营销文案创作、概念图创作等领域。只需要提交简单的提示要求,大模型就能生产极具创意的文案或者图像。下图给出了AI生成的极具创意的例子。这种能力目前已经广泛运用于实际生产中了。我们浏览的大量短视频配音和文案,其实都是用这种技术生成的。你是否意识到了呢?

虽然我们观测到大模型表现出上述的三种智能能力,但是作者认为我们不能就此下定论大模型具备和人一样的想象能力、推理能力、创造能力。 我们在后文的理论分析部分会逐步揭露这三种智能的本质来源。在第五章末尾,我们会再次回顾大模型的智能涌现。

1.4 大模型智能涌现能力的现实意义

虽然大模型不具备和人类一样的智能,但是基于大模型的目前涌现出来的三种能力,并不妨碍现阶段我们充分使用它们。根据上述三种能力,应用层很容易想到的是如下三种应用。

1.4.1 智能agent,代替人的模型

由于大模型表现出卓越的学习能力和生成能力,因此它完全可以用于代替部分人的模型。人类的很多工作,不需要抽象概念、复杂的推理、决策和创造性,完全只需要记住知识并且运用知识,比如客服、部分视觉设计师、文案写作、健康咨询等职业。这部分工作只需要培训,并记住知识。运用的时候不需要复杂分析和推理决策。只需要运用知识进行回复。他们比较像早期的专家系统或者知识图谱问答系统。这种工作是非常容易被智能agent取代的。并且由于大模型学习能力强,不容易出错,工作表现可能会比人类更优秀。

1.4.2 概念设计

​ 由于大模型表现出一定的创新能力,因此很容易用于概念设计。实际上在游戏领域这项技术已经被广泛使用了。概念设计是指设计需求不十分明确的时候,反复进行探索性设计和具象化表达的阶段。概念设计是生产环节最为重要也是最耗时的环节。大模型的创造性和生成效率能够帮助设计师提升创意水平,并加速生产效率。

1.4.3 超级人机接口和互联网流量入口

​ 生成式大模型最直观的表现是能够进行基于自然语言的意图理解,并能够用自然语言给出答案。那么这会不会带来人机接口的突破性进展呢。本文作者认为答案几乎已经非常明确了。并且围绕这种新的人机交互接口,会不会改变现在互联网的平台入口呢。互联网已经从最早的门户网站,演变到搜索引擎,然后发展到最近火爆的推荐系统。大模型是否能够带来新的互联网信息入口的改变呢?如果能做到,那将是互联网产业的又一次洗牌。目前几乎所有的传统互联网大厂都在争夺这个入口,也不乏明星创业公司参与其中。这些风险投资看到的是这种不确定性一旦确定,谁把握住入口,谁就把握住生态。


最后如果您也对AI大模型感兴趣想学习却苦于没有方向👀
小编给自己收藏整理好的学习资料分享出来给大家💖

在这里插入图片描述

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉如何学习AI大模型?👈

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
在这里插入图片描述

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
在这里插入图片描述

四、AI大模型商业化落地方案

在这里插入图片描述

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。
请添加图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值