大模型的小科普

1 概述

        本文从大模型的基本概念出发,对大模型领域容易混淆的相关概念进行区分,并就大模型的发展历程、特点和分类、泛化与微调进行了详细解读,供大家在了解大模型基本知识的过程中起到一定参考作用。

2 大模型的定义

        小模型,通常指参数较少、层数较浅的模型,它们具有轻量级、高效率、易于部署等优点,适用于数据量较小、计算资源有限的场景,例如移动端应用、嵌入式设备、物联网等。

        当模型的训练数据和参数不断扩大,直到达到一定的临界规模后,其表现出了一些未能预测的、更复杂的能力和特性,模型能够从原始训练数据中自动学习并发现新的、更高层次的特征和模式,这种能力被称为“涌现能力”。而具备涌现能力的机器学习模型就被认为是独立意义上的大模型,这也是其和小模型最大意义上的区别。

        这里引出大模型的定义,即具有大规模参数和复杂计算结构的机器学习模型。这些模型通常由深度神经网络构建而成,拥有数十亿甚至数千亿个参数,该模型在自然语言处理、计算机视觉、语音识别和推荐系统等领域得到广泛的应用,适用于数据量较大、计算资源充足的场景,例如云端计算、高性能计算、人工智能等。

        大模型的设计目的,是通过训练海量数据来学习复杂的模式和特征,具有更强大的泛化能力,可以对未见过的数据做出准确的预测。如图 1所示,神经网络基础又输入层、隐藏层和输出层构成。

图 1 神经网络示意图

3 大模型相关概念区分

  1. 大模型(Large Model,也称基础模型,即Foundation Model),是指具有大量参数和复杂结构的机器学习模型,能够处理海量数据、完成各种复杂的任务,如自然语言处理、计算机视觉、语音识别等。
  2. 超大模型:超大模型是大模型的一个子集,它们的参数量远超过大模型。
  3. 大语言模型(Large Language Model):通常是具有大规模参数和计算能力的自然语言处理模型,例如 OpenAI 的 GPT-3 模型。这些模型可以通过大量的数据和参数进行训练,以生成人类类似的文本或回答自然语言的问题。大型语言模型在自然语言处理、文本生成和智能对话等领域有广泛应用。
  4. GPT(Generative Pre-trained Transformer):GPT 和ChatGPT都是基于Transformer架构的语言模型,但它们在设计和应用上存在区别:GPT模型旨在生成自然语言文本并处理各种自然语言处理任务,如文本生成、翻译、摘要等。它通常在单向生成的情况下使用,即根据给定的文本生成连贯的输出。
  5. ChatGPT:ChatGPT则专注于对话和交互式对话。它经过特定的训练,以更好地处理多轮对话和上下文理解。ChatGPT设计用于提供流畅、连贯和有趣的对话体验,以响应用户的输入并生成合适的回复。
  1. 大模型的发展历程

图 2 大模型发展历程图

1. 萌芽期(1950-2005):以CNN为代表的传统神经网络模型阶段:

  • 1956年,从计算机专家约翰·麦卡锡提出“人工智能”概念开始,AI发展由最开始基于小规模专家知识逐步发展为基于机器学习;
  • 1980年,卷积神经网络的雏形CNN诞生;
  • 1998年,现代卷积神经网络的基本结构LeNet-5诞生,机器学习方法由早期基于浅层机器学习的模型,变为了基于深度学习的模型,为自然语言生成、计算机视觉等领域的深入研究奠定了基础,对后续深度学习框架的迭代及大模型发展具有开创性的意义。

2. 探索沉淀期(2006-2019):以Transformer为代表的全新神经网络模型阶段

  •   2013年,自然语言处理模型 Word2Vec诞生,首次提出将单词转换为向量的“词向量模型”,以便计算机更好地理解和处理文本数据;
  • 2014年,被誉为21世纪最强大算法模型之一的GAN(对抗式生成网络)诞生,标志着深度学习进入了生成模型研究的新阶段;
  • 2017年,Google颠覆性地提出了基于自注意力机制的神经网络结构——Transformer架构,奠定了大模型预训练算法架构的基础
  • 2018年,OpenAI和Google分别发布了GPT-1与BERT大模型,意味着预训练大模型成为自然语言处理领域的主流。在探索期,以Transformer为代表的全新神经网络架构,奠定了大模型的算法架构基础,使大模型技术的性能得到了显著提升。

3. 迅猛发展期(2020-至今):以GPT为代表的预训练大模型阶段;

  • 2020年,OpenAI公司推出了GPT-3,模型参数规模达到了1750亿,成为当时最大的语言模型,并且在零样本学习任务上实现了巨大性能提升。随后,更多策略如基于人类反馈的强化学习(RHLF)、代码预训练、指令微调等开始出现, 被用于进一步提高推理能力和任务泛化;
  • 2022年11月,搭载了GPT3.5的ChatGPT横空出世,凭借逼真的自然语言交互与多场景内容生成能力,迅速引爆互联网;
  • 2023年3月,最新发布的超大规模多模态预训练大模型——GPT-4,具备了多模态理解与多类型内容生成能力。在迅猛发展期,大数据、大算力和大算法完美结合,大幅提升了大模型的预训练和生成能力以及多模态多场景应用能力。如ChatGPT的巨大成功,就是在微软Azure强大的算力以及wiki等海量数据支持下,在Transformer架构基础上,坚持GPT模型及人类反馈的强化学习(RLHF)进行精调的策略下取得的。

5 大模型的特点

        巨大的规模:大模型包含数十亿个参数,模型大小可以达到数百GB甚至更大。巨大的模型规模使大模型具有强大的表达能力和学习能力。

        更好的性能和泛化能力: 大模型通常具有更强大的学习能力和泛化能力,能够在各种任务上表现出色,包括自然语言处理、图像识别、语音识别等。

        大数据训练:大模型需要海量的数据来训练,通常在TB以上甚至PB级别的数据集。只有大量的数据才能发挥大模型的参数规模优势。

        强大的计算资源:训练大模型通常需要数百甚至上GPU,以及大量的时间,通常在几周到几个月。

        迁移学习和预训练:大模型可以通过在大规模数据上进行预训练,然后在特定任务上进行微调,从而提高模型在新任务上的性能。

6 大模型的分类

        按照输入数据类型的不同,大模型主要可以分为以下三大类:

  •  语言大模型(NLP):是指在自然语言处理(Natural Language Processing,NLP)领域中的一类大模型,通常用于处理文本数据和理解自然语言。这类大模型的主要特点是它们在大规模语料库上进行了训练,以学习自然语言的各种语法、语义和语境规则。例如:GPT系列(OpenAI)、Bard(Google)、文心一言(百度);
  • 视觉大模型(CV):是指在计算机视觉(Computer Vision,CV)领域中使用的大模型,通常用于图像处理和分析。这类模型通过在大规模图像数据上进行训练,可以实现各种视觉任务,如图像分类、目标检测、图像分割、姿态估计、人脸识别等。例如:VIT系列(Google)、文心UFO、华为盘古CV、INTERN(商汤)
  • 多模态大模型:是指能够处理多种不同类型数据的大模型,例如文本、图像、音频等多模态数据。这类模型结合了NLP和CV的能力,以实现对多模态信息的综合理解和分析,从而能够更全面地理解和处理复杂的数据。例如:DingoDB多模向量数据库(九章云极DataCanvas)、DALL-E(OpenAI)、悟空画画(华为)、midjourney。

        按照应用领域的不同,大模型主要可以分为L0、L1、L2三个层级:

  • 通用大模型L0:是指可以在多个领域和任务上通用的大模型。它们利用大算力、使用海量的开放数据与具有巨量参数的深度学习算法,在大规模无标注数据上进行训练,以寻找特征并发现规律,进而形成可“举一反三”的强大泛化能力,可在不进行微调或少量微调的情况下完成多场景任务,相当于AI完成了“通识教育”;
  • 行业大模型L1:是指那些针对特定行业或领域的大模型。它们通常使用行业相关的数据进行预训练或微调,以提高在该领域的性能和准确度,相当于AI成为“行业专家”
  • 垂直大模型L2:是指那些针对特定任务或场景的大模型。它们通常使用任务相关的数据进行预训练或微调,以提高在该任务上的性能和效果。

7 大模型的泛化与微调

        模型的泛化能力:是指一个模型在面对新的、未见过的数据时,能够正确理解和预测这些数据的能力。在机器学习和人工智能领域,模型的泛化能力是评估模型性能的重要指标之一。

        模型微调:给定预训练模型(Pre-trained model),基于模型进行微调(Fine Tune)。相对于从头开始训练(Training a model from scatch),微调可以省去大量计算资源和计算时间,提高计算效率,甚至提高准确率。

8 大厂的最新进展和应用情况

1. 应用原理

        模型微调的基本思想是使用少量带标签的数据对预训练模型进行再次训练,以适应特定任务。在这个过程中,模型的参数会根据新的数据分布进行调整。这种方法的好处在于,它利用了预训练模型的强大能力,同时还能够适应新的数据分布;模型微调能够提高模型的泛化能力,减少过拟合现象。

        举例:将大模型已经训练好的参数为初值,加入自己采集的数据集,做好标签,进行再训练,将训练出来的参数模型移植到嵌入式的AI芯片中。

        大在GPU上训练的模型一般不能直接跑在嵌入式设备上,因为太大的模型会导致推理时内存占用和CPU占用过多,甚至不能实时推理。需要模型压缩, 目前可用的方案有模型蒸馏,模型剪枝和模型量化,一般的做法是先做模型蒸馏,得到小模型之后进行模型剪枝,再对剪枝过后的模型进行量化处理。

2. 最新应用进展

        在早期的计算机领域(CV),模型的训练需要透过提取特征工程。视觉大模型是通过学习大量的图像和视频数据,形成具备视觉通用能力。相较于上千亿参数的NLP模型相比,CV模型规模要小两三个数量及,目前CV大模型的发展还是存在一些挑战:

  • 在CV领域可用于训练的有效数据比NLP领域有不少差距;
  • CV领域的学习方法还需要突破;
  • 不同的视觉应用仍需要依赖于不同的模型,如何建立通用的视觉模型还是未知;
  • 供训练的图像尺寸越来越大,较小的模型也可能有很大的计算量。

现阶段比较有名的CV大模型包括微软的swin-transformer系列,谷歌的ViT系列以及有150亿参量的V-MOE模型。国内方面,截止2021年,商汤训练了300亿参数的CV模型,2022年,华为也发布了30亿参数的盘古系列CV模型。

盘古CV大模型服务于智能巡检、智慧物流等场景。盘古CV大模型在电力巡检行业中已实现行业应用,助力国家电网。它利用海量无标注电力数据进行预训练,并结合少量标注样本微调的高效开发模式,节省人工标注时间。在模型通用性方面,结合盘古搭载的自动数据增广以及类别自适应损失函数优化策略,大幅降低了模型维护成本。

9 参考链接

  1. AI大模型行业深度:行业概述、发展现状、产业链及相关公司深度梳理【慧博出品】 - 知乎 (zhihu.com)
  2. 什么是大模型?一文读懂大模型的基本概念-CSDN博客
  3. 什么是神经网络?用代码示例解析其工作原理 - 知乎 (zhihu.com)
  4. 【科普华为海思芯片家... - @科技Yu的微博 - 微博 (weibo.com)
  5. 如何将训练好的神经网络部署到嵌入式芯片上,如arduino和树莓派等? - 知乎 (zhihu.com)


 

  • 14
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值