一本让你快速入门大模型之书，零基础入门到精通，收藏这一篇就够了

程序员_大白

于 2024-09-29 18:57:25 发布

阅读量359

点赞数 3

分类专栏：互联网计算机大模型文章标签：数据挖掘语音识别计算机视觉

本文链接：https://blog.csdn.net/Python_0011/article/details/142641668

版权

计算机同时被 3 个专栏收录

602 篇文章 10 订阅

订阅专栏

互联网

513 篇文章 4 订阅

订阅专栏

大模型

24 篇文章 1 订阅

订阅专栏

一、引言

大模型的出现正悄然改变人们的生活与工作方式，比如ChatGPT-4、文心一言、通义千问等语言大模型。它们已帮助很多办公室“白领”们在解决日常工作问题，如制定计划、撰写实施方案，甚至制作美化PPT等（笔者及身边的同事在工作中还经常组合应用）。那什么是大模型？大模型又如何设计与应用呢？翻开《快速部署大模型——LLM策略与实践（基于chatGPT等大语言模型）》，或许可以从中找到想要的答案。该书作者为斯楠·奥兹米尔德。由姚普等联合译著，清华大学出版社出版。

二、LLM的基础——“自注意力”的特殊算法

2017年，谷歌大脑团队推出了名为Transformer的高级人工智能（AI）深度学习模型，该模型从此成为了学术界和工业界处理各种自然语言处理（NLP）任务的基准。LLM（人工智能大模型）也是源于Transformer架构，它可以准确、流畅地、并有风格地执行各种与语言相关的任务，从简单的文本分类到文本生成。

Transformer架构为何有如此能力？因为它使用了一种被称为自注意力的特殊算法，允许序列中的每个词“关注”序列中的所有其他词（上下文），使其能够捕捉大范围内的依赖关系。

三、LLM如何解决大量任务？

大模型通常有两种语言建模任务：自编码任务和自回归任务。因此，一般来说，LLM主要分为以下三类：

1、自回归模型：**如GPT，根据前面的词预测句子中的下一个词。**LLM在给定上下文后，生成连贯的自由文本方面非常有效。

2、自编码模型：**如BERT，通过屏蔽一些输入的词元，并尝试从其余词元中预测被屏蔽的词元来进行双向构建。**这些LLM擅长快速且大量地捕捉词元之间的上下文关系，因此成文文本分类任务的理想候选者。

3、自回归和自编码的组合模型：**如T5，可以使用编码器和解码器，在生成文本时更加通用和灵活。**与纯基于解码器的自回归模型相比，这种组合模型可以在不同背景下生成更多样化和创造性的文本，因为它们能够使用编码器捕获额外的上下文。

四、大模型应用在哪些方面？

（一）经典的NLP任务

1.文本分类

文本分类是全球最知名、最易解决的NLP任务之一。比如“垃圾邮件”识别，是人们日常生活中可以接触到的最常用的文本分类。它为给定的文本片段分配一个标签，该任务通常用于情感分类，其目标是将一段文本分类为积极、消极或中性；或用于主题分类，其目标是将一段文本分类为一个或多个预定义的类别。

2.翻译任务

机器翻译任务是最早的应用之一。当前能进行翻译任务的有T5、GPT-3等等。它们可以将语言翻译更多样化、更精准化，并且可以相对轻松地在数十种语言之间进行翻译。