LLM的基础模型1:前言

写在最前面的话

任何开源技术是最有生命力的,也是最具分享精神的。一直觉得大模型领域需要有一个系列能够从零开始系统性的讲述领域知识,给与这个领域的从业人员或者对其有兴趣的门外汉及时的帮助。国外承担“布道者”的公司众多,而数砖公司在这个领域一直走在前面。恰逢数砖的“从头开始大模型的基础模型”于近期发布,借花献佛,在基础上加入自身理解进而形成这个特殊的专栏。

虽然生成式人工智能技术的正在迅猛发展,但是现阶段面临的主要挑战是没有一个模型能够适用于所有情况。所以人们对为特定用例创建定制化模型的兴趣日益浓厚。为了找到实践中的最佳模型,亦或是追求在隐私、品质、成本、服务及模型使用延迟等多方面达到平衡,决定了一定需要定制化模型。由此可见,开发新的大型语言模型是一项浩大的工程。

目前,市场上有许多成功的专有和开源LLM模型,它们由不同的公司和研究团队提供,如Anthropic、ChatGPT、PaLM-2、Databricks的Dolly、Mosaic MPT、StabilityAI的模型以及Hugging Face上的众多模型,这些模型如何选择让人左右为难。通过这个专栏,能够帮助大家更好地理解和应用这些模型,通过理解它们的基本原理和应用方法,进而构建出高品质的应用程序和模型。

令人兴奋的是随着开源模型的兴起,免费模型的品质正在快速提升,相关的知识也在不断积累。源源不断出现的新开源模型和研究社群正在探索的技术,能够帮助需要者快速的构建出色的语言模型和应用。即便是许多开源模型源于最初无法商业使用的技术。例如,Meta或Facebook在2023年初发布的Llama模型,激发了许多研究人员的创新。史丹佛大学的一个团队基于Llama模型开发了Alpaca模型,它擅长聊天和遵循指示,使其在多种应用中更具实用性。此外,Databricks的Dolly、MosaicML的MPT等模型也开始提供商业许可,让模型的使用更加灵活和广泛。评估模型也是极为重要,如何有效的构建评估体系也是这个专栏会讨论之一。Hugging Face已经存在LLM排行榜专注于不同任务的评估,帮助开发者了解模型的表现,并构建更好的模型。

虽然LLM领域的知识和技术日新月异,但是万地高楼平地起,在这个系列中会更加关注基础。通过细节了解模型的基本运作原理、预训练数据和推理过程,以及各个阶段的可用选项,这些基础知识的微小变化构成了其他所有内容。

Transformer架构

在这个系列的第一部分将进入深度学习和自然语言处理的奇妙世界,首先聚焦于Transformer架构——这是现代大型语言模型的核心技术。本部分内容不仅是整个系列的基石,也是理解后续章节的关键所在。

Transformer的当前形式首次亮相是在2017年的BERT论文中。自那以后,大多数的大型语言模型都是基于Transformer的某种变体,包括OpenAI推出的GPT,这是一个预训练的Transformer模型,对当前基于聊天的语言模型产生了深远的影响。有趣的是,在Transformer出现之前,虽然有许多深度学习模型的快速实验,但它们更像是寒武纪大爆炸,各种不同层次和模块的组合。而Transformer的出现,至少在自然语言处理领域,使得许多模型设计都遵循了相同的基本构建块。这使得研究的关注点转移到了不同的训练技术和数据生成方法上。

尽管底层架构并没有经历过大规模的改变,但Transformer架构的强大之处在于它允许模型学习输入不同方面之间的多种交互,并且可以堆叠到不同的深度,以便理解模型的不同特性。即使今天存在一些变化,这些变化可能旨在提高速度或降低成本,但基本的构建块仍然是相同的。

2023年,在大型语言模型领域见证了思想、概念和创新的爆炸式增长,这些创新不断给我们带来惊喜。ChatGPT和其他类似技术代表了人类与技术之间的一种新型交互方式,因为它们基于自然语言处理,我们能够更自然地与它们交流。同时,它们广泛的应用和深厚的技术知识也使我们能够更好地处理日常生活中的事务。

对于过去10年左右熟悉深度学习世界的人来说,您可能已经注意到,在2010至2012年初,我们经历了一个类似的热潮时刻。当时,卷积神经网络的创新震撼了计算机视觉世界。这项创新就是卷积层,它使我们能够查看不同空间区域中的图像,尝试了解图像内部的情况。正如您在图片中看到的,这意味着我们可以与旧技术竞争并将其彻底击败。通过ImageNet的测试,卷积神经网络轻松地在竞争中占据主导地位,并且自2012年以来,每个模型都基于卷积神经网络,使得结果达到了饱和状态。自然语言处理领域也在等待这样的发展。

我们在2018年左右迎来了这一突破,释放大型语言模型力量的创新被称为“注意力机制”。正如这个词所暗示的,注意力机制允许计算机(或者在这个情况下是Transformer)准确地了解一个单词如何按照特定顺序与其他单词相关联,并给出序列中每个单词之间的重要性分数。对我们来说,这似乎是一个显而易见的概念,它是我们在生命早期就开发出来的,但它对于自然语言处理来说是至关重要的一部分,能够释放以前无法实现的能力。虽然注意力机制在我们掌握自然语言处理方面迈出了一大步,但它实际上只是构建我们现在看到的Transformer和类似模型所需的一小部分。因此,深入了解Transformer非常重要。后续的旅途将围绕着如下的问题展开:

  • 明确掌握如何使用Python代码实现Transformer模型。

  • 深入理解不同类型Transformer架构中的构建块,包括编码器、解码器以及编码器-解码器组合模型。

  • 充分理解注意力机制的原理、工作方式及其重要性

  • 将大模型应用于多种自然语言处理(NLP)任务,并评估它们的性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值