目录
业界著名大语言模型(LLM),如OpenAI的GPT系列、Bloom、Bard、Bert、LaMDa、LLaMa等,都有自己的用户群体。大语言模型正在彻底改变我们与技术互动的方式,它们正在塑造一个与机器交流就像与朋友聊天一样自然的未来。从生成创意内容到协助高级研究,大型语言模型正在融入我们的日常生活。
在本文中,我们将探讨大语言模型(LLM)是什么、它如何运作、它为何受到关注,以及它如何塑造我们的未来。
1 - 什么是大语言模型(LLM)?
大型语言模型(LLM)是基于人工智能的先进模型,经过训练,它可以密切反映人类自然交流的方式处理和生成人类语言。这些模型利用深度学习技术和大量训练数据来全面理解语言结构、语法、上下文和语义。我们日常交互的许多应用程序(例如聊天机器人、AI搜索引擎、内容生成工具等)的幕后运行着GPT-3、GPT-4、LaMDA、BLOOM、LLaMA等著名大语言模型,LLM的出现彻底改变了自然语言处理任务。
但这对我们意味着什么?除了为我们的日常交互提供动力之外,LLM还在改变行业、简化工作流程,甚至创造新的艺术内容。它们开启了令人兴奋的可能性,并重新定义了我们对技术的期望。这场技术变化并不仅仅带来更智能的小工具或更高效的软件,而是可能塑造一个人类和机器可以像人类相互交流一样进行交流的未来。尽管看起来很科幻,但这种变革就真真切切正在发生。
2 - 大型语言模型如何工作?
如果您正在阅读本文,您可能至少使用过一种文本生成人工智能工具,例如ChatGPT。这些工具的工作原理是学习人类花费数年时间创建的大量数据集。大语言模型一般需要学习TB的文本数据,并且在学习过程中需要海量的计算资源。
所有这些大语言模型都基于Transformer工作。Transformer是一种神经网络架构,它使计算机能够通过分析文本中单词和短语之间的关系来理解、解释和生成人类语言。与以前按顺序处理语言的模型不同,Transformer可以同时查看多个句子部分。现在,为了让这个想法更具有相关性:想象一下阅读一本书并立即理解所有角色、情节曲折和情感,而不是逐字逐句地理解。Transformer对语言做了类似的事情,快速掌握文本背后的含义。这种独特的语言处理方式使Transformer成为强大的计算机程序的基础,这些程序可以以人类的方式聊天、写作和思考。
那么,之前的模型是什么?Transformers是如何“改变”LLM游戏并在自然语言处理领域获得全面应用的?Transformer架构的内部工作原理是什么?请继续阅读以找出答案。
2.1 - 编码器-解码器 (Encoder-decoders)
编码器-解码器(Encoder-decoders)架构由Google和多伦多大学研究人员于1997年提出,是大语言模型的核心。它解决了序列到序列的任务,例如机器翻译、文本摘要和问答。
至于机器翻译,本质上是这样的:编码器获取一个句子,例如英语句子,并将其转换为某种向量表示。该向量包含原始句子的所有基本信息。然后,解码器接管,将这些向量翻译成一种新语言,例如德语。为了确保我们充分想象这个过程,让我们更详细地了解编码器-解码器架构中的机器翻译阶段。我们将把“The weather is nice today”这句话翻译成德语“Das Wetter ist heute schön”。这里的编码器-解码器架构有五个主要组件:
-
输入嵌入: