(注:研一某课程作业...参考裁缝几篇中文论文完成)
一、大模型的影响
大模型通常是指通过预先在海量数据上进行大规模预训练,然后通过指令微调以适应一系列下游任务的通用人工智能模型,被看作是一项人工智能技术迈向通用智能的里程碑式进展。
大模型的出现和发展对人工智能领域产生了变革性影响。而且在产业应用方面正在变革社会生产方式。除了能作为人类助手之外,还将重塑生产力工具,变革信息获取方式。
向上游,大模型可带动上游软硬件计算平台的革新,形成高性能软硬件与大模型的协同发展,构建“大模型+软硬件+数据资源“上游发展生态;向下游,大模型可以打造“大模型+应用场景”的下游应用生态,加速全产业的智能升级,对经济、社会和安全等领域的智能化升级形成关键支撑。微软将GPT-4整合到整个office套件里,打通各个办公软件,实现协同办公。同时,将GPT-4整合进Bing搜索引擎中,以“GPT-4+搜索”的方式实现了更加直接和智能的信息获取方式,解决了大模型知识陈旧难以更新的问题,显著提升了获取信息的准确性和可靠性,同时大模型还将与外部接口和服务融合,深入到各行各业。
因此,大模型被广泛认为很可能像PC时代的操作系统一样发展成为未来人工智能应用中的关键基础设施,引发人工智能新一轮变革,加速推进国民经济的高质量发展。
二、大模型的发展历程
过去十多年的发展,深度学习技术大致经过了三次重大的研究范式转变。从开始的“监督学习+各自为政”,到“预训练模型+任务微调”,再到如今的“预训练大模型+提示生成”,经历了从专用到通用,从小数据到大数据,从小模型到大模型的发展历程。
在“大数据+大算力+强算法”的加持下,AI大模型实现了“暴力美学”,通过“提示+指令微调+人类反馈”方式,可以实现一个模型完成多种不同的任务,展现出令世人惊艳的自然语言生成能力和通用性,具备了跨学科、多场景、多用途的处理能力,支持多轮对话、语言翻译、信息检索、程序设计、诗词创作、数据分析等一系列功能,在部分应用上甚至已经媲美人类专家。
·以语言类模型为例
随着深度学习算法和算力的迅速发展,研究人员发现,语言模型的表现可以随着模型参数量和训练数据的增长而持续提升[1],并对自然语言处理领域中的诸多任务(例如文本分类、命名实体识别、词性标注等)有显著提升。因此,近年来语言模型,特别是大型语言模型(Large Language Model,LLM)逐渐成为自然语言处理领域发展的主流。下面的表1中列举了当前常见大型语言模型的基本信息。
表1 已有常见大语言模型
模型名称 | 发布机构 | 所在国家 | 模型参数量(亿) 模态 | 最大序列长度 | 使用方式 | |
GPT-3 | OpenAI | 美国 | 1750 | 语言 | 2K | API |
GPT-4 | OpenAI | 美国 | / | 语言、图像 | 32K | API |
Codex | OpenAI | 美国 | 120 | 代码 | / | API |
J1-Jumbo | AI21 Labs | 美国 | 1780 | 语言 | 2K | 受限访问 |
J1-Grande | AI21 Labs | 美国 | 170 | 语言 | 2K | 受限访问 |
BLOOM | BigScience | 法国 | 1760 | 语言 | 2K | 开源 |
GPT-NeoX | EleutherAI | / | 200 | 语言 | 2K | 开源 |
Anthropic-LM | Anthropic | 美国 | 520 | 语言 | 8K | / |
Claude | Anthropic | 美国 | / | 语言 | 100K | 受限访问 |
CodeGen | Salesforce | 美国 | 160 | 代码 | 2K | 开源 |
Turing-NLG | Microsoft | 美国 | 170 | 语言 | / | / |
MT-NLG | Microsoft | 美国 | 5300 | 语言 | 2K | / |
OPT | Meta | 美国 | 1750 | 语言 | 2K | 开源 |
LLaMA | Meta | 美国 | 650 | 语言 | 2K | 开源 |
T5 | | 美国 | 110 | 语言 | 512 | 开源 |
UL2 | | 美国 | 200 | 语言 | 512 | 开源 |
AlphaCode | | 美国 | 410 | 代码 | 768 | / |
PaLM | | 美国 | 5400 | 语言 | 2K | API |
LaMDA | | 美国 | 1370 | 语言 | / | / |
Chinchilla | | 美国 | 700 | 语言 | / | / |
Gopher | | 美国 | 2800 | 语言 | 2K | / |
CPM-2 | 清华、智源 | 中国 | 1980 | 语言 | / | 开源 |
GLM-130B | 清华、智谱 | 中国 | 1300 | 语言 | 2K | 开源 |
MOSS | 复旦大学 | 中国 | 160 | 语言 | 2K | 开源 |
InternLM | 上海 AI LAB | 中国 | 1040 | 语言 | 2K | / |
ERNIE 3.0 Titan | 百度 | 中国 | 2600 | 语言 | 512 | 受限访问 |
源 1.0 | 浪潮 | 中国 | 2450 | 语言 | 2K | 受限访问 |
盘古-α | 华为 | 中国 | 2000 | 语言 | 1K | / |
盘古-Σ | 华为 | 中国 | 10000 | 语言 | 1K | / |
WeLM | 腾讯 | 中国 | 100 | 语言 | / | 受限访问 |
M6 | 阿里巴巴 | 中国 | 1000 | 语言、图像 | / | / |
M6-10T | 阿里巴巴 | 中国 | 100000 | 语言、图像 | 512 | / |
PLUG | 阿里巴巴 | 中国 | 270 | 语言 | / | / |
Baichuan-13B | 百川智能 | 中国 | 130 | 语言 | 4K | 开源 |
YaLM | Yandex | 俄罗斯 | 1000 | 语言 | 2K | 开源 |
目前的语言模型普遍采用Transformer模型架构[2],它通过注意力机制建模输入文本中的长距离语义依赖,具有优秀的规模化能力和并行化计算能力[3]。
随着模型参数量的增长,研究人员发现许多过去性能处于随机水平的任务取得了显著提升。我们将这类随着模型参数规模增长而迅速习得的能力称为大型语言模型的涌现能力[4]。在不同的任务上观测到涌现能力所需的参数量差异极大,目前仍然有大量困难任务未观测到模型性能的涌现。例如毒性分类能力的涌现所需参数量约为71亿,三位数加减能力的涌现所需参数量约为130亿[4]。
·GPT系列发展历程
GPT-1[5]主要采用Transformer的decoder作为模型,利用大量无标注数据进行无监督预训练,在不改变基座模型的情况下,仅通过对少量标注数据进行任务相关的输入变换,然后进行有监督微调就可以解决不同的下游任务,相对于之前每个任务需要重新训练一个模型的范式,GPT-1模型具有重要的启发意义。到GPT-2[6]时,模型和参数规模变得更大,通过Zero-shot Learning的方式就解决不同的下游任务,虽然展现一定的通用性,但性能有限。到GPT-3[7]时,模型规模和数据规模达到千亿,它能够在没有任何梯度更新和微调情况下,仅通过提示词或少数样例就可以非常好地完成指定的各种任务,甚至超过最好的专用模型。从这个角度来说,大量信息提取能进一步提炼出很多超脱语义之上的信息,包括语义片段的信息,以及一些各个语义层次之间的关联信息。但其终究是个基于概率生成的语言模型,不可避免地会输出无用的、有害的信息,无法对齐人类的偏好。
为了克服GPT生成的内容无法与人类偏好对齐的问题,OpenAI进一步提出InstructGPT。InstructGPT采用有监督的指令微调和人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)方法,使用近端策略优化(Proximal Policy Optimization,PPO)强化学习模型实现模型的自我优化和更新,使得模型能够更好地遵循用户的意图,生成的内容和人类的要求和偏好进行有效对齐。实际上,ChatGPT是在GPT-3.5基础上采用InstructGPT训练方式进一步微调出来的,而GPT-3.5在GPT-3的基础上加入了思维链、代码和多轮对话等数据进一步训练得到的,代码和思维链的训练使得模型具有更强的逻辑推理能力。这一系列的优化改进成就了ChatGPT惊艳的思维理解、多轮对话和通用能力。
三、大模型技术的风险与挑战
首先,大模型的可信性无法得到保障。基于海量数据训练的大模型,其生成的内容非常符合语言规则,通顺流畅,人类几乎难以辨别,且生成的内容与人类的偏好对齐,极具欺骗性,在事实性、时效性和数据准确性方面存在很多问题,不具备对其生成的内容提供可信性评估的能力。
其次,大模型的可解释性较差。大模型本质上是一个基于深度神经网络的黑盒语言模型,其能力来源的机理依然不清楚,难以解释。包括大模型的涌现能力[4]、规模定律[1]、知识表示、逻辑推理能力、泛化能力、情景学习能力等方面仍有待学术界展开进一步研究,以便为大模型的大规模实际应用提供理论保障。
再次,大模型的应用成本较高。大模型参数规模和数据规模都非常巨大,导致其训练和推理计算量大、功耗高、部署困难、应用成本高、还存在延迟问题,大大限制了其应用。提高推理速度降低大模型的使用成本是大规模应用的关键。
最后,小数据环境下AI大模型的能力迁移问题。更大模型更大数据会使得模型涌现更强的能力,但针对特定领域,在小数据环境下实现AI大模型的能力迁移,能够显著扩大AI大模型的应用范围降低应用成本。大模型在更为复杂场景下的鲁棒性和泛化能力方面也值得探索,大模型并不能适用所有场景,它本质上还是依赖训练数据所能覆盖的场景。在场景规模数据不大的情况下,不得不去依赖对它进行微调。但是,通过不同细分领域划分成不同类别进行数据有效的筛选、标注,以及相应的微调技术就能使得大模型具有较好的在不同小场景、场景较复杂情况下适用的能力,提升它的可靠性。
·学术研究方向
有人担忧,大模型出现后NLP没什么好做的了。而刘知远教授说,大模型这样的技术变革出现时,虽然有很多老的问题解决了、消失了,但同时我们认识世界、改造世界的工具也变强了,会有更多全新的问题和场景出现,等待我们探索。比如:1、基础理论:大模型的基础理论是什么?2、网络架构:Transformer是终极框架吗?3、高效计算:如何使大模型更加高效?4、高效适配:大模型如何适配到下游任务?5、可控生成:如何实现大模型的可控生成?6、安全可信:如何改善大模型中的安全伦理问题?7、认知学习:如何使大模型获得高级认知能力?8、创新应用:大模型有哪些创新应用?9、数据评价:如何评估大模型的性能?10、易用性:如何降低大模型的使用门槛?详见《刘知远教授:大模型LLM领域,有哪些可以作为学术研究方向》
参考文献
[1] Kaplan J,McCandlish S,Henighan T,et al. Scaling laws for neural language models[J]. arXiv preprint arXiv:2001.08361,2020.
[2] Vaswani A, Shazeer N, Parmar N, et al.Attention is all you need[C] //Proc of the 30th Annual Conf on Neural Information Processing Systems.New York: Curran Associates, 2017:5990-6008
[3] Lin Tianyang, Wang Yuxin, Liu Xiangyang,et al. A Survey of Transformers[J]. AI Open 3 (2021): 111-132.
[4] Wei J,Tay Y,Bommasani R,et al. Emergent abilities of large language models[J]. arXiv preprint arXiv-2206.07682,2022.
[5] RadfordA, Narasimhan K, SalimansT, et al. Improving language understanding by generative pre-training.(2018-06-11)
[6] RadfordA, WuJ,Child R, et al. Language models are unsupervised multitask learners. OpenAI blog,2019,1(8):9.
[7] OuyangL, WuJ, JiangX, et al. Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems.2022:27730-27744