一本让你快速入门大模型之书

最新推荐文章于 2024-09-30 14:16:32 发布

程序员辣条

最新推荐文章于 2024-09-30 14:16:32 发布

阅读量795

点赞数 14

文章标签：人工智能 AI大模型大模型大模型学习大模型教程大模型入门

本文链接：https://blog.csdn.net/m0_65555479/article/details/141459681

版权

一、引言

大模型的出现正悄然改变人们的生活与工作方式，比如ChatGPT-4、文心一言、通义千问等语言大模型。它们已帮助很多办公室“白领”们在解决日常工作问题，如制定计划、撰写实施方案，甚至制作美化PPT等（笔者及身边的同事在工作中还经常组合应用）。那什么是大模型？大模型又如何设计与应用呢？翻开《快速部署大模型——LLM策略与实践（基于chatGPT等大语言模型）》，或许可以从中找到想要的答案。该书作者为斯楠·奥兹米尔德。由姚普等联合译著，清华大学出版社出版。

二、LLM的基础——“自注意力”的特殊算法

2017年，谷歌大脑团队推出了名为Transformer的高级人工智能（AI）深度学习模型，该模型从此成为了学术界和工业界处理各种自然语言处理（NLP）任务的基准。LLM（人工智能大模型）也是源于Transformer架构，它可以准确、流畅地、并有风格地执行各种与语言相关的任务，从简单的文本分类到文本生成。

Transformer架构为何有如此能力？因为它使用了一种被称为自注意力的特殊算法，允许序列中的每个词“关注”序列中的所有其他词（上下文），使其能够捕捉大范围内的依赖关系。

三、LLM如何解决大量任务？

大模型通常有两种语言建模任务：自编码任务和自回归任务。因此，一般来说，LLM主要分为以下三类：

1、自回归模型：**如GPT，根据前面的词预测句子中的下一个词。**LLM在给定上下文后，生成连贯的自由文本方面非常有效。

2、自编码模型：**如BERT，通过屏蔽一些输入的词元，并尝试从其余词元中预测被屏蔽的词元来进行双向构建。**这些LLM擅长快速且大量地捕捉词元之间的上下文关系，因此成文文本分类任务的理想候选者。

3、自回归和自编码的组合模型：**如T5，可以使用编码器和解码器，在生成文本时更加通用和灵活。**与纯基于解码器的自回归模型相比，这种组合模型可以在不同背景下生成更多样化和创造性的文本，因为它们能够使用编码器捕获额外的上下文。

四、大模型应用在哪些方面？

（一）经典的NLP任务

1.文本分类

文本分类是全球最知名、最易解决的NLP任务之一。比如“垃圾邮件”识别，是人们日常生活中可以接触到的最常用的文本分类。它为给定的文本片段分配一个标签，该任务通常用于情感分类，其目标是将一段文本分类为积极、消极或中性；或用于主题分类，其目标是将一段文本分类为一个或多个预定义的类别。

2.翻译任务

机器翻译任务是最早的应用之一。当前能进行翻译任务的有T5、GPT-3等等。它们可以将语言翻译更多样化、更精准化，并且可以相对轻松地在数十种语言之间进行翻译。

3.SQL生成

如果把SQL看作一种语言，大模型还可以使用如GPT-3从Postgres生成可运行的SQL代码。现代LLM已经可以再基本层面上完成这种转换，但更高级的SQL查询通常需要一些微调。

（二）自由文本生成

现代大模型可以灵活地撰写博客、电子邮件甚至学术论文等。例如可以促使ChatGPT帮助规划一篇博客文章，它可以帮助构思、搭建甚至撰写。或许编写的不尽如人意，但至少开始在编辑，而不是长时间盯着空白页面。

（三）聊天机器人

每个人都喜欢好的聊天机器人。LLM的对话能力在ChatGPT甚至GPT-3这样的系统中都很突出。如果你也想搭建自己喜欢的聊天机器人，那就继续看完这本书，相信你在书中可以找到大模型设计与实现的步骤。

LLM的功能非常强大，它彻底改变了NLP领域的高级人工智能模型。它们在大型文本数据集上进行预训练，然后可以根据特定任务进行微调。在此书中，你可以探索使用GPT-3和ChatGPT等专有模型构建应用的过程，从模型选择、微调、部署到维护等方方面面。还等什么，赶紧看起来吧！

在这里插入图片描述

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述