综述 | 清华大学刘知远团队剖析大语言模型时代的社会机遇与挑战

大语言模型时代的社会机遇与挑战

陈慧敏,刘知远,孙茂松

45f8d9b71f68e883dad0a18fbcff6b31.png

摘要

8ea7509e4b72d29cf3547a7573732584.png

       大语言模型ChatGPT因其高度通用化和智能化的表现受到广泛社会关注,其引发的技术革命也正逐渐延伸为一场社会革命. 在此背景下,基于ChatGPT背后大语言模型技术的演进路线与特征,探索大语言模型技术对社会的潜在机遇与挑战,成为当下社会的重要议题.  

       本文首先回顾大语言模型技术发展,将其演进总结为三个发展阶段并论述关键技术特征,然后基于技术与社会互动视角分别探讨大语言模型技术引发的社会机遇:个人通用信息助理、科学研究新范式、产业基础设施、国家治理能力现代化有力工具,以及面临的潜在挑战:信息污染问题、社会权力分配问题、伦理和法制问题、意识形态安全问题. 最后,本文对大语言模型技术发展及其与社会发展关系的未来展开一定思考与讨论.  

4a9419b9f66efd941de5e45213e58f26.png

内容简介

631161d5d7595353bb90af26d7f47bef.png

        1.回顾大语言模型技术发展,将其演进总结为三个发展阶段并论述关键技术特征.

        2.基于技术与社会互动视角分别探讨大语言模型技术引发的社会机遇以及面临的潜在挑战.

        3.对大语言模型技术发展及其与社会发展关系的未来展开一定思考与讨论.

主要内容

3cd6188f3e37138f67c318e03b67b99f.gif

0.   引言

2022年11月,美国著名人工智能研究实验室OpenAI发布基于大语言模型的聊天生成预训练转换(chat generative pre-trained transformer, ChatGPT),在知识理解、逻辑推理、人机交互等方面表现出高度通用化和智能化特征,在全世界引发广泛关注和使用:在上线后不足两个月的时间里,即获得一亿活跃用户,成为历史上用户数增长最快的面向消费者的应用. 中国工程院外籍院士、微软公司创始人比尔·盖茨称其诞生的意义“不亚于互联网或个人电脑的诞生”,美国工程院院士、SpaceX公司创始人马斯克评价其“离强人工智能不远了”. 紧随其后,OpenAI于2023年3月发布包括语言和图片的多模态大模型GPT-4,被称作大语言模型的新里程碑.

可以预见,伴随技术的不断进步及相关应用生态的持续建设,ChatGPT及其相关大语言模型技术集群将很快在不久之后从一种“技术事实”转变为“社会事实”,引发社会各领域的变革. 基于此,面向ChatGPT背后大语言模型技术的演进范式与特性,探索其对社会的潜在机遇与挑战,是当前人工智能技术发展与社会变迁日益紧密联系时代背景下的重要命题. 本文将首先梳理总结ChatGPT相关大语言模型技术的演进路线与特性,基于此从技术与社会互动视角探讨大语言模型技术所引发的社会机遇以及面临的挑战,以期有助于学者们加深对ChatGPT技术特性的认识,借此启发对ChatGPT潜在社会机遇和挑战的思考.

1.   大语言模型的技术演进

大语言模型是ChatGPT所依托的核心技术. 在论述其技术演进路线之前,首先要明确大模型之“大”的含义. 笔者认为应从两方面理解其内涵:一方面意指模型规模大,以2017年节点做前后对比,此前自然语言处理的语言模型参数规模大致在千万量级以下,而自2018年谷歌发布预训练语言模型基于变换器的双向编码器表示技术(bidirectional encoder representations from transformers, BERT)后,语言模型的参数规模均达到亿级以上. 在此之后,预训练语言模型的最大参数规模每年增长数十倍,其中最著名的模型之一是2020年7月由美国OpenAI发布的GPT-3,参数规模达到1750亿参数. 另一方面,大模型之“大”意指对大数据蕴含知识的集大成学习,基于大量高性能并行计算芯片GPU对海量无标注数据实现自监督高效学习,所学习数据的规模从早期BERT中使用的20GB到GPT-3中采用的45TB. 也正是在GPU多机多卡算力和海量无标注文本数据的双重支持下,才实现语言模型规模与性能齐飞的局面,成为人工智能和自然语言处理领域的最新革命性突破.

在厘清大模型之“大”的内涵后,再来理解大语言模型的技术演进则显得更为清晰. 大语言模型的技术演进路线整体可以分为如下三个阶段.

1.1   第一阶段:大语言模型的崛起

第一阶段以2017年美国谷歌公司(Google)的研究团队在名为Attention is All Your Need的论文中发布全新的神经网络架构Transformer作为开端,此架构迅速应用到整个人工智能领域,成为自然语言处理及其相关研究领域的主要方法. Transformer通过摒弃它前任神经网络架构们的不适合GPU芯片并行计算的操作,极大提高了神经网络模型从大规模数据中学习的效率,直观上能够在单位时间和算力支持下阅读更多数据,直接导致了此后模型规模的迅速增长.

这里需要提及的是,从这一阶段开始,大语言模型的预训练技术即开始分割为两个主要类别,分别是以BERT为代表的面向语言理解的遮蔽语言模型(mask language model, MLM)和以GPT为代表的面向语言生成的自回归语言模型(autoregressive language model, ALM),直接影响了大语言模型第二和第三阶段的技术演进路线.

具体而言,BERT所依托的遮蔽语言模型MLM的预训练方法如图1所示,给定一个句子如S1,随机选择并遮蔽其中某个词如“中国”,得到训练样例T1,其中出现“中国”的位置被遮盖标识符 [MASK] 取代了. BERT的MLM任务目标就是,根据T1的上下文语境信息,预测被遮盖位置是哪个词,而判断预测是否准确的标准答案A1,就是原句S1中的“中国”.GPT则采用了不同的预训练方法. 如图2所示,自回归语言模型ALM任务目标就是,GPT能够像人类说话一样,根据前面已经生成的内容,不断预测和生成下一个词. 值得注意的是,由给定文本提供的“标准答案”并不见得完美. 以T6任务为例,预测“大学”是对的,预测“高校”、“高等学校”、“学府”也是对的. 但是根据给定文本,只能认定A6 “大学”是准确的,而其他预测都会认为是错误的. 大模型的神奇之处就在于,虽然每个训练样例的“标准答案”不全然准确,每个样例都是不完美的“教师”,“三个臭皮匠,顶个诸葛亮”,数以亿计的不完美训练数据可以教会大模型从概率上无限逼近优秀的语言能力.

cdb71c01a0836edd4e889e85f381e703.jpeg

                      图  1  遮蔽语言模型MLM示例

                      Figure  1.  An example for MLM

332dfe1acd6c071259a22a67c0550d3b.jpeg

                      图  2  自回归语言模型ALM示例

                      Figure  2.  An example for ALM

       从BERT和GPT的预训练任务对比,可以看出两者有不同的假设. BERT的遮蔽语言模型MLM假设文本已经在那里了,只是某个词被盖住了,BERT可以同时考虑被盖住词左侧和右侧的语境信息来预测遮盖词;GPT的自回归语言模型ALM则假设文本尚不存在,需要模型从左到右进行生成,所以在生成下一个词时只能考虑其左侧已生成的信息. 因此,BERT模型更适合用来做文本语义理解,进行文本分类、阅读理解等自然语言理解任务,而GPT模型则更适合用来做文本生成、对话系统等自然语言生成任务. 同时,相比于遮蔽语言模型MLM每训练一条文本只预测一个词,自回归语言模型ALM可以对多个词进行预测,这使得在相同训练次数的条件下,自回归语言模型ALM比遮蔽语言模型MLM学习的更快,模型更易收敛,这直接导致GPT系列语言模型的参数规模具备更优的扩展性.

1.2   第二阶段:超大规模语言模型的发展

        大语言模型发展的第二阶段即是以2020年OpenAI发布的GPT-3(1750亿参数)为开端,开启了超大规模预训练语言模型的新时代,在知识理解、语言生成、上下文学习等方面展现出惊人能力.

        如表1所示,以英文-中文机器翻译为例,可以看到,“少次学习”任务仅提供非常少的训练样例(图例中为3个),“一次学习”是少次学习的极端特殊情况,即只有一个训练样例,而“零次学习”则只有任务描述,没有任何训练样例.

ce07a508025fe598276908c83e5de6a9.png

         大语言模型在少次学习和零次学习上的能力飞跃,在GPT模型的发展历程中体现的淋漓尽致. GPT-3的开发团队训练了1.25亿(Small)、3.5亿(Medium)、7.6亿(Large)、13亿(XL)、2.7B(27亿)、6.7B(67亿)、13B(130亿)和175B(1750亿)等8个不同参数规模的模型,并在评测基准SuperGLUE上验证这些模型在少次学习和零次学习上的性能变化. 随着GPT-3参数规模的增大(13亿、130亿和1750亿),模型的少次学习(包括一次学习)能力有着飞跃式的进步,特别是到1750亿时甚至具备了一定程度的零次学习能力[12]. 这也是GPT-3作者在论文题目中强调“Language Models are Few-Shot Learners”(语言模型是少次学习者)的原因.

1.3   第三阶段:通用大语言模型的进化

     大语言模型的第三阶段则是以如今广为人知的由OpenAI发布的ChatGPT作为开端,其在具有强大性能的GPT-3基础模型上,引入代码训练、指令微调(instruction tuning)和基于人类反馈的强化学习(reinforcement learning from human feedback, RLHF)等技术,进一步增强大语言模型的自然交互和人类对齐能力,使其在面对常识性和推理性问题、未知领域和敏感议题时展现出显著智能化特征. 在此之后,OpenAI所发布的多模态大模型GPT-4,支持同时以文本和图像多种模态运行,其认知和推理能力或将带来通用人工智能的再一次变革.

        通过结合指令微调和来自人类反馈的强化学习两项技术,ChatGPT在与人类用户对话交互方面展现了卓越表现. 例如,在程序调试方面,ChatGPT可以根据用户提供的程序代码片段回答错误原因或解决方法,且还会主动提问以获取更多信息并确认理解是否正确;在敏感话题方面,ChatGPT可以根据用户提问时使用的措辞或意图判断是否应该回答. 正因这种强大的认知与交互能力,ChatGPT一经发布便迅速引起社会的广泛关注,成为通用人工智能发展历程中重要里程碑.

2.   大语言模型的社会机遇与挑战

科学技术对社会变革具有重要的推动力量. 正如伟大思想家马克思所言,“科学是一种在历史上起推动作用的、革命的力量”,新技术的诞生和应用往往对社会生产力、社会发展方向起到决定性作用. 与此同时,技术的推广和使用也受到诸多社会因素的选择、推动和制约.

2.1   社会机遇

大语言模型技术在各任务领域展现的通用智能特征,呈现出在个人、科学、产业和国家各层面的广泛应用潜力. 因此,笔者将就个人、科学、产业和国家层面分别对其催生的社会机遇展开论述.

在个人层面,大语言模型技术将催动个人通用信息助理成为现实. 在当前信息爆炸的时代,每一个网络用户面对的是海量的信息资源,即使拥有搜索引擎、社交媒体等发挥信息汇聚功能的入口,但人类自身所能阅读和处理的信息毕竟是有限的. 同时,伴随人类知识水平的不断提升,对更高质和高效信息生产的渴求也日益旺盛. 这些个人层面的社会需要与大语言模型强大的信息整合、信息理解和信息生产能力遥相呼应,催化大语言模型成为个人通用信息助理. 

在科学研究层面,大语言模型技术可以加速推动科学研究方法新范式,提升科学生产力. 随着科学数据的爆炸式增长和复杂性的不断提高,传统科学研究方法逐渐制约科学生产力. 2018年“AI for science”概念被提出,强调AI拥有服务于科学知识生产的巨大潜力,开启了科学研究的新范式. 

在产业层面,大语言模型技术将成为各行业的基础设施,推动产业格局变迁. 在如今科技迅速发展的背景下,科技创新成为企业发展的源动力,推动企业效能的提升. 谷歌公司前CEO埃里克. 施密特曾提出“反摩尔定律”,意指企业如果不能追赶上科技发展的摩尔定律,收益将遵循反向的摩尔定律,并很快被社会所淘汰. 

在国家层面,大语言模型技术将可成为推动国家治理能力现代化的有力工具. 伴随信息技术日益广泛渗透到社会各个领域,国家治理面向的对象和内容都越发以信息化甚至智能化的形式呈现,这要求国家治理的手段也随之不断更新和调整. 其中,充分把握信息技术和智能技术发展所形成的技术优势,并将其转化为治理效能的提升则是推进国家治理能力的现代化的重要基石. 

2.2   社会挑战

        尽管大语言模型技术在各领域表现出了广泛的应用前景,但仍存在一些问题. 如同以往任何一项新技术在研发至社会应用阶段所需经历的碰撞和适应过程,目前大语言模型技术在社会化落地应用过程中可以预见以下问题.

       信息污染问题. 尽管以ChatGPT为代表的大模型已经初具通用人工智能的能力,但现阶段仍存在一些生成信息与事实不符的现象,尤其是在涉及专业知识的领域,如法律和医疗等. 就技术扩散层面而言,著名传播学者罗杰斯在其力作《创新的扩散》中曾指出,技术的“可靠性”对一项技术是否会被公众广泛接受和社会推广具有重要作用. 就社会影响层面而言,这些廉价生成的失实和有害信息一旦被信任和广泛传播,将严重污染网络信息环境. 

       社会权力分配问题. 从长远来看,ChatGPT相关技术的出现必将导致部分重复度高、目标相对确定、低创造力的工作岗位收缩或被代替. 联合国贸发组织也针对此问题发表《人工智能聊天机器人ChatGPT如何影响工作就业》文章,谈及“与大多数影响工作场所的技术革命一样,聊天机器人有可能带来赢家和输家,并将影响蓝领和白领工人”. 大语言模型技术在社会化应用过程中所导致的社会权力和分工调整以及可能引发的潜在社会矛盾,仍然是需要前瞻性思考和妥善解决的重要问题.

       伦理和法制问题. 大语言模型作为具有强大内容学习和生产能力的新技术实体,不同于在既有法律和道德约束下的人类,其生成内容在使用过程中将面临知识产权、隐私、学术诚信、侵权责任认定等一系列伦理和法制隐患.  

       意识形态安全问题. ChatGPT的智能表现主要来源于对海量数据和人类反馈的学习,因此,数据和人类反馈中的意识形态偏见也将被吸收到模型中. 目前主流ChatGPT类大语言模型仍主要由美国企业和机构训练所得,主要训练语言来源也是英语,那么语言中所存在的意识形态偏见或者训练中人为恶意引入的预设偏见立场,将直接沿袭至大语言模型所生成的信息中,引发意识形态安全隐患. 

5d0175a0021e204ba52a41ecbb291724.png

结论与启示

       ChatGPT的出现,在技术意义层面预示着大语言模型技术进入又一崭新阶段,同时为通用人工智能的发展迎来又一次曙光;在社会意义层面,其也是智能化语言理解和生成技术真正面向社会可实用的一次跃进. 未来伴随大语言模型技术的各类社会应用不断诞生,其与社会发展的关系也将更加紧密和富有张力,如同我们现今紧密依赖的互联网技术与时刻处于反思与规制中的互联网社会. 本文最后面向未来大语言模型技术的发展及其与社会的互动,做一定总结与思考.

从大语言模型技术发展的角度而言,短期来看,更强大的基础模型和更高质量的数据仍然是关键. 长久以来,理性主义与经验主义一直是计算语言学研究的两大范式,前者强调让计算机内省总结语法规则与知识而精确理解语义,而后者强调通过对外界数据自动学习进而理解语义. 回顾大语言模型的发展路径——基于大规模神经网络模型在海量数据中习得语言知识,经验主义是其现阶段取得优异表现的主要范式. 在这一点上,目前国内相对于国外仍有一定差距. 这也启示我们加快基础语言模型研发,加强数据基建,规范数据治理,尽快实现同等ChatGPT级别基础模型的自主可控. 长期来看,理性主义与经验主义的结合或成为大语言模型迈向通用人工智能的路径选择. 同时,现阶段的大语言模型无论是ChatGPT亦或是GPT-4,主要基于语言、视频、图像等静态数据训练,未来的大语言模型可以进一步建模人类的行为动态数据,帮助人类完成各项任务,真正打通虚拟世界与现实世界之门. 在此之外,可靠的负责任的大语言模型也是未来技术发展并迈向社会化应用的必经之路. GPT-4的研发历程也向我们证明模型的可靠性仍是一个极为重要但又棘手的问题:GPT-4在2022年8月份训练完成之后,相关研发人员使用6个月的时间用于提升模型的安全性和可靠性.

从大语言模型技术发展与社会发展的关系来看,不管是从社会现实需要出发,还是从大语言模型的技术能力出发,大语言模型技术都成为无法忽视的一股潜在社会变革力量. 现如今社会中所出现的“禁止使用ChatGPT”的声音和措施只是一种暂时状态——在还无法预估和承担风险下做出的暂时决策. 美国未来学学者保罗·萨佛曾言“历史表明,一旦消费者察觉到某项新技术有用并且承受得起,广泛采用的情况就会发生的相当快”. 长久之道应是以疏代堵,采取制度治理与技术治理相结合路径:以道德和法制引导人类如何更加合理合规地研发和使用技术,如推动技术专家与伦理和法制专家合作,健全大语言模型领域相关研发和使用制度规范;以创新技术约束机器如何更加可靠地负责任地协助人类,如建立大语言模型相关伦理与意识形态安全风险评测体系,建设模型内部伦理约束机制和外部恶意攻击识别和防御系统,以此推动技术与社会的和谐可持续发展. 与此同时,针对大语言模型技术未来逐渐替代部分人类工作的可能问题,我们也应思考自身如何更好地与之共存以及社会可以赋予的调节力量. 就社会层面而言,一方面,基础模型研发人才和各垂直领域专业人才的培养,以及现有人力队伍的智能应用技能培训,是推动人工智能基建和各垂直领域产业的智能化转型的关键;另一方面,培养与智能技术互补的专业人才队伍,如能解决复杂问题、具备批判思维和创造力的人才,促进人力队伍转型则是面向未来人机共存社会的前置储备. 就个人层面而言,历史经验表明人类总会在技术与社会的相互适应中找到自身的价值所在. 我们在拥抱大模型技术的同时,也应在与技术的互动中发挥人的主体性位置,做技术的创新者、机器规则的制定者、社会问题的反思者.

引用格式

陈慧敏, 刘知远, 孙茂松. 大语言模型时代的社会机遇与挑战[J]. 计算机研究与发展. DOI: 10.7544/issn1000-1239.202330700

Chen Huimin, Liu Zhiyuan, Sun Maosong. The Social Opportunities and Challenges in the Era of Large Language Models[J]. Journal of Computer Research and Development. DOI: 10.7544/issn1000-1239.202330700

a29c328b75242660f2b6479783be66c6.png

扫码可获取全文

f83c496d49cb33dace198341f94047c9.jpeg

2023年论文合辑系列

合辑 | 《计算机研究与发展》2023年刊登综述论文

合辑 | 《计算机研究与发展》2023年刊登人工智能相关论文

合辑 | 《计算机研究与发展》2023年刊登体系结构相关论文

合辑 | 《计算机研究与发展》2023年刊登安全与隐私保护相关论文

合辑 | 《计算机研究与发展》2023年刊登软件技术相关论文

合辑 | 《计算机研究与发展》2023年刊登网络与通信相关论文

合辑 | 《计算机研究与发展》2023年刊登并行与分布式计算相关论文

2024年目录

目录 |《计算机研究与发展》2024年第1期(投票评选您最感兴趣的论文)

目录 |《计算机研究与发展》2024年第2期(投票评选您最感兴趣的论文)

目录 |《计算机研究与发展》2024年第3期(投票评选您最感兴趣的论文)

目录 |《计算机研究与发展》2024年第4期(投票评选您最感兴趣的论文)

近期亮点论文与专家评述

特邀评述(来自华东师范大学周傲英教授)| 互联网时代分布式关系数据库的有益探索

亮点论文(OceanBase创始人兼首席科学家阳振坤团队)| OceanBase分布式关系数据库架构与技术

特邀评述(来自东南大学罗军舟教授)| 云原生驱动的大规模终端网络设计优化和应用实践

亮点论文(清华大学李振华团队)| 大规模复杂终端网络的云原生强化设计

特邀评述(来自西安交通大学苏洲教授)| 区块链去中心化平台与代币的转账信息不一致问题的发掘与检测

亮点论文(电子科技大学陈厅团队)| DEALS——追踪代币转账信息不一致

特邀评述(来自日志易创始人兼CEO陈军)| 基于不同场景的日志压缩与检索设计

亮点论文(清华大学张广艳团队)|云日志存储系统:从“压得狠”到“查得快”

特邀评述(来自澜舟科技创始人周明) | 重视大模型风险,发展负责任AI

亮点论文(微软亚洲研究院谢幸团队)| 大模型道德价值观对齐问题剖析

特邀评述(来自滑铁卢大学沈学民院士) | 优化无人驾驶系统仿真模糊测试

特邀评述(来自华东师大蒲戈光教授) | 黑盒验证:无人驾驶系统安全挑战的解决途径

亮点论文(复旦大学杨珉团队) | 面向无人驾驶系统的仿真模糊测试:现状、挑战与展望

特邀评述(来自清华李国良教授) | 智能系统软件的机遇和挑战

亮点论文(上海交大陈海波团队) | 机器学习方法赋能系统软件:挑战、实践与展望

特邀评述(来自腾讯高剑林总监) | 香山高性能处理器:一个新的科技平台实践

亮点论文 (来自中科院包云岗团队)  | 香山开源高性能RISC-V处理器设计与实现

特邀评述 | 龙架构:一种开放自主指令集架构的实践

亮点论文 | 龙芯指令系统架构技术

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值