[科普向]关于GPT的核心-大语言模型(LLM)

引言

自2022年底,OpenAI推出chatGPT之后,再到更新至GPT-4版本,在展示过它的能力之后,不论是哪个行业的人群,都被震惊了,很多人都称AI将是新一代工业革命。

而我作为一个前端开发工程师,在了解过它的能力之后,很震撼这样一个技术的诞生,同时也有一些担忧,对于AI技术的高门槛以及现在传统开发中还没有找到可以将它落地的场景。

本文也是我在了解相关AI过程中一篇基础的科普向文章 Large Language Models: Complete Guide in 2023 (aimultiple.com) 分享给大家,希望可以让大家对GPT这种大语言模型有一个最基本的概念,正文使用DeepL基于深度学习和神经网络的AI翻译。

同时也分享一点目前我个人的观点,首先在未来大部分企业都难以具备这种大模型的能力,它将会以一种基础能力被AI巨头开放出来,供开发者来开发应用层。

另一方面各企业将会开发一些小模型,垂直于自己的业务场景。

我觉得在PC端将会有一些更好的落地场景,因为模型运行对于内存的占用很大,对计算能力的需求也比较高,WebGLWebAssembly将会有更大的发展空间,因为它可以更好的调用GPU、CPU的能力以及内存管理,同时模型的大小剪裁和部署将会重点(虽然现在也是),因为浏览器可以使用的内存空间是很有限的。对于这一块可以尝试Transformer.js,它可以在浏览器上跑模型。

正文

最近,大型语言模型(LLMs)引发了大量热议。这种需求使利用语言模型的网站和解决方案的不断发展。ChatGPT在2023年1月创下了用户群增长最快的记录,证明了语言模型将继续存在。谷歌对ChatGPT的回答Bard于2023年2月推出,也说明了这一点。

语言模型也为企业带来新的可能性,因为它们可以:

  • 实现流程自动化
  • 节省时间和金钱
  • 推动个性化
  • 提高任务的准确性

1. 什么是大型语言模型

大型语言模型(LLMs)是在自然语言处理(NLP)和自然语言生成(NLG)任务中利用深度学习的基础模型。为了帮助它们学习语言的复杂性和联系,大型语言模型在大量的数据上进行了预训练。使用的技术,如:

这些模型可以适用于下游(特定)任务。

LLM本质上是一个基于Transformer的神经网络,由谷歌工程师在2017年一篇题为"Attention Is All You Need"的文章中介绍。一个模型的先进性和性能可以通过它有多少个参数来判断。一个模型的参数是它在生成输出时考虑的因素数量。

大型语言模型实例

有许多开源的语言模型可以在内部或私有云中部署,可以快速转化到业务采用和提供强大的网络安全。这类语言模型有(仅罗列部分):

* BLOOM  
* NeMO LLM  
* XLM-RoBERTa  
* XLNet  
* Cohere  
* GLM-130B 


大多数领先的语言模型开发者都是美国人,但中国和欧洲也有成功的例子,因为他们正在努力追赶生成式人工智能。

2. 语言模型的使用案例有哪些?

大型语言模型可以应用于各种用例和行业,包括医疗、零售、科技等等。以下是所有行业都存在的用例:

 * 文本总结  
 * 文本生成  
 * 情感分析  
 * 内容创作  
 * 聊天机器人、虚拟助手和对话式人工智能  
 * 命名实体识别  
 * 语音识别和合成  
 * 图像注解  
 * 文本到语音的合成  
 * 拼写纠正  
 * 机器翻译  
 * 推荐系统  
 * 欺诈检测  
 * 代码生成 

3. 大型语言模型是如何训练的

大型语言模型是深度学习神经网络,是人工智能和机器学习的一个子集。大型语言模型首先被预训练,以便它们学习基本的语言任务和功能。预训练是需要大量计算能力和尖端硬件的步骤。

一旦模型经过预训练,就可以用特定任务的新数据对其进行训练,为特定的用例进行微调。微调方法具有很高的计算效率,因为它需要更少的数据和功率,是一种更便宜的方法。

更多信息,请查看2023年的大型语言模型训练一文。

4. 大型语言模型的4个好处

  1. 减少人工劳动和成本

    语言模型可用于自动化许多过程,例如:

    • 情感分析
    • 客户服务
    • 内容创作
    • 欺诈检测
    • 预测和分类

    将这些任务自动化,可以减少人工和相关成本。

  2. 提高可用性、个性化和客户满意度

    许多客户希望企业能够全天候提供服务,这可以通过利用语言模型的聊天机器人和虚拟助理来实现。通过自动化的内容创建,语言模型可以通过处理大量的数据来了解客户的行为和偏好,从而推动个性化的发展。客户满意度和积极的品牌关系将随着可用性和个性化的服务而增加。

  3. 节省时间

    语言模型系统可以使营销、销售、人力资源和客户服务的许多过程自动化。

    例如,语言模型可以帮助进行数据输入、客户服务和文件创建,使员工腾出时间从事需要人类专业知识的、更重要的工作。

    语言模型可以为企业节省时间的另一个领域是对大量数据的分析。有了处理大量信息的能力,企业可以迅速从复杂的数据集中提取信息并做出明智的决定。这可以提高运营效率,更快地解决问题,并做出更明智的商业决策。

  4. 提高任务的准确性

    大型语言模型能够处理大量的数据,这可以提高预测和分类任务的准确性。模型再利用这些处理好的信息来学习模式和关系,这有助于它们做出更好的预测和分组。

    例如,在情感分析中,大型语言模型可以分析数以千计的用户评论,以了解每条评论背后的情感,从而提高判断客户评论是正面的、负面的还是中性的准确性。这种准确性的提高在许多商业应用中是至关重要的,因为小的错误会产生重大影响。

5.语言模型的挑战和限制

  1. 可靠性和偏见

    语言模型的能力受限于它们所训练的文本训练数据,这意味着它们对世界的认识是有限的。模型学习训练数据中的关系,而这些关系可能包括:

    • 虚假信息
    • 种族、性别和性的偏见
    • 有毒的语言
    • 当训练数据没有被检查和标记时,语言模型已经被证明会做出种族主义或性别歧视的评论。也有一些情况下,模型会出现虚假信息。
  2. 上下文窗口

    每个大型语言模型只有一定的内存,所以它只能接受一定数量的token作为输入。例如,ChatGPT的限制是2048 个token(大约1500个单词),这意味着ChatGPT无法对超出这个输入范围的内容进行理解,也无法为超过2048个 token 限制的输入产生输出。

  3. 系统成本

    开发大型语言模型需要大量投资,包括计算机系统、人力资本(工程师、研究人员、科学家等)和电力。由于是资源密集型,使得大型语言模型的开发只适用于拥有巨大资源的巨大企业。据估计,英伟达和微软的Megatron- Turing,项目总成本接近1亿美元。

  4. 环境影响

    Megatron-Turing是用数百台NVIDIA DGX A100 多GPU服务器开发的,每台服务器的耗电量高达6.5千瓦。伴随着大量的电力来冷却这个巨大的框架,这些模型需要大量的电力,并留下了大量的碳足迹。根据一项研究,在GPU上训练 BERT(谷歌的LLM)大致相当于一次跨美国的飞行。

引用:

Large Language Models: Complete Guide in 2023 (aimultiple.com)

Attention Is All You Need

  • 23
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值