以 ChatGPT 为代表的「大模型」会是多大的技术革命？如果要发生技术革命需要具备哪些条件？...

最新推荐文章于 2024-04-17 16:29:50 发布

人工智能与算法学习

最新推荐文章于 2024-04-17 16:29:50 发布

阅读量469

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzIyOTkyOTEzOQ==&mid=2247498746&idx=1&sn=db06f545e2474b886e9652346d508efa&chksm=e8b98226dfce0b307c163fbfd4ec27bec4caaf28139fe3635a7ac259d44c47c87cf51d46c7c6&scene=126&sessionid=0

版权

AI大模型在具体场景下的多样价值

· AI大模型相当于是通过积累大量知识，最后形成的一个有泛化知识的个体。它跟原来传统意义上的小模型之间的差异，就相当于一个经过了大量通用题库训练的大学生，和一个只在特定专业受训练的技校生的差异。

　　放眼整个AI大模型，不论是整体创建还是训练的成本都非常高，也是为什么国内外都是以研究院机构在主导技术推进。

· 自然语言处理（NLP）和计算机视觉（CV）这两块大模型是细分领域发展得最快的，技术上是因为相比其他情感或者逻辑推理等功能，结构更简单；应用上的原因主要是因为数据相对充分和廉价易得，大量的视频和文字资源可以近乎零成本扒取，另外也有直接可以应用的落地前景，比如对话系统推进系统、CV安防、智能产品的图像识别。

· 大模型的整体价值在于解决场景碎片化，在具体应用场景中，传媒影视用的比较多，做动漫游戏背景需要大量的素材，除了少部分核心的原画需要插画师创作，很多篇幅都可以通过机器生成；在科研领域，它也有可能驱动产生全新的研究范式，像生命科学以前基本上是靠纯手工的方法去做实验，现在结合大模型，演变出了干湿结合的新实验方法；智慧工业场景或者偏柔性的产线里也会产生各式任务和各种指标，像生产线传送带的温度、速度、压力以及生产数据本身，都可以通过大模型分析数据趋势，修正产线缺漏。

· 在产业端，大模型更像一种基础设施，达到一定规模后，它的重置成本就会非常高，如果最终只剩下少数几家取得优势地位的大模型供应商，并且在大多数行业上又有较好牵引力的话，那么就可能出现我们设想中的“AI超级大脑”。

· 眼下当务之急还是要找到更多行业结合点，让大家首先知道有大模型这种工具来尝试，现在陆陆续续有传统行业和互联网团队在积极对接了解大模型，这是好的信号。

HeptaAI（浙大HeptaAI Lab官方账号）回答：

技术革命在NLP界已经发生了，预计很快会影响到CV。以ChatGPT为代表的大模型将至少造成以下影响：

校设实验室向细或向空，公司实验室向大。校设实验室逐渐向大模型靠拢。由于训练资源不足，大量校设实验室将集中于prompt可解释性、即插即用方法、内部知识整合。训练资源尤其稀缺的校设实验室将集中在非常偏的任务。公司实验室会开始大模型竞争，RLHF的不同方向和规模将成为第一波low-fruit，外部知识整合会是第二波low-fruit。公司实验室的方法和参数保密性将进一步提升。公司实验室对系统架构和高效训练的人才的需求将迅速攀升。
小任务整合入大任务。大量小任务会并入大任务，构造有监督数据集并微调不再是小任务的第一选择。大模型无法取得好结果的小任务将成为研究热点。换句话说，研究热点将从“大模型能做到什么”转换为“大模型做不到什么”。
知识的挖掘和自监督学习成为NLP最前沿方向。大量基于RLHF的自监督基于知识的生成方法将被大实验室提出并实践，成果将大量发表在顶会。主流热点将主要focus在知识的数量、质量以及运用知识的方法。统计方法几乎完全取代规则方法，知识的地位将快速超越模型本身。这一浪潮将迅速影响到CV，今年必定有更多基于RLHF的CV方法发表于CV三大会。
资本变向，算法岗地位下降。资本将变向涌入大模型方向，未来数年会保持较高热度。公司将合并大量业务，竞争训练大模型以抢占市场。大数据工程师、后端工程师、架构师的地位提高，算法工程师地位进一步下降。

下面是写给从业者的建议。

如果你认真思考一下ChatGPT的架构，其实会发现ChatGPT无非就是微调的GPT-3，唯一的不同不过是知识的指向性，或者说模型对特定知识的筛选。GPT-3是用大量无指向性的非结构化文本训练的，而ChatGPT是在GPT-3的基础上用大量RLHF自监督的文本微调的。换句话说，知识才是ChatGPT优于GPT-3的关键。GPT-3的知识没有任何标签，因此本质是一个无监督学习；而ChatGPT使用RLHF生成符合人类指令要求的知识，因此本质是一个自监督学习。有了RLHF提供的监督信号，两个模型学习知识的质量就完全不同了。实验证明，使用质量高的知识，可以将GPT-3的模型规模压缩100倍。绕来绕去，NLG最后还是知识起了决定性作用。

想要在知识上做出创新，首先需要对NLG界中知识的演变做一个大致的了解。知识可以分为两种形式：内部知识（internal knowledge）和外部知识（external knowledge）。内部知识是从输入中获得的。例如，给定一串文本，内部知识就是这串文本隐含的topic、keyword等等。这串文本可以是一段summary，可以是一轮question-answering，甚至可以是一段对话（utterance+context）。外部知识是所有不能从输入中获得的知识，也就是在广泛的语料库中蕴含的知识。最简单的外部知识就是未被结构化的纯文本，例如小说、wikipedia、paper等。如果把纯文本结构化成知识库，知识就能被有效地组织起来。知识库其实就是一堆三元组，包括主谓宾。要构建知识库，可以人工标注三元组，也可以用大模型自动去打标签。形成知识库后，还可以用共享的主谓宾去做知识图谱，这样就可以运用各种各样的图算法了。其实ChatGPT和GPT-3都是运用大量的外部知识来提升生成的知识广度，而在内部知识上使用embedding一把梭，不考虑各种复杂的方法和指标。ChatGPT在生成回复后，会有reward model对输出进行打分，从而运用特定的外部知识；GPT-3在学习知识后不进行对输出的打分，直接进行推断，预训练时记住的外部知识成为生成的直接条件。换句话说，ChatGPT使用了“质量高”的外部知识。

知道了知识的分类，如何运用知识呢？最常用的知识整合方法还是attention，用dual encoder来fuse一个向量（一个输入文本的encoder，一个知识的encoder），此外还有用GNN来结构化句子。如果希望赋予OOV能力，可以加一个pointer network；如果希望赋予记忆能力，可以加一个memory network。

因此，从NLG界运用知识方式的发展的角度看：

外部知识的收集和整合的地位将迅速超越内部知识。
记忆方法如memory network将被attention取代，因为attention有能力记住far early内容。
OOV方法如pointer network将被attention取代，因为大量外部知识可以消除OOV的现象。
GNN等embedding方法可以用来整合入attention的embedding层，但价值大幅降低。
外部知识的质量监督的重要性将大幅超越知识的获取。

内容转载自知乎，著作权归属原作者，本文仅作学术分享，侵删

END

推荐阅读

ChatGPT会取代搜索引擎吗？

全网唯一，不忽悠的ChatGPT

国内那么多AI专业，为什么国内却没有ChatGPT？

阻碍国内团队研究 ChatGPT 这样产品的障碍有哪些，技术，钱，还是领导力？

在看

人工智能与算法学习

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
以 ChatGPT 为代表的「大模型」会是多大的技术革命？如果要发生技术革命需要具备哪些条件？...

AI大模型在具体场景下的多样价值· AI大模型相当于是通过积累大量知识，最后形成的一个有泛化知识的个体。它跟原来传统意义上的小模型之间的差异，就相当于一个经过了大量通用题库训练的大学生，和一个只在特定专业受训练的技校生的差异。　　放眼整个AI大模型，不论是整体创建还是训练的成本都非常高，也是为什么国内外都是以研究院机构在主导技术推进。· 自然语言处理（NLP）和计算机视觉（CV）这两块大模型是细分...
复制链接

扫一扫