写给“纯小白”的大语言模型入门指南

前言

ChatGPT很牛X,上知天文,下至地理,中间还通晓人情世故。类似它的产品还有一大帮,例如:文心一言、通义千问、kimiChat…等等。
而且通过我们技术工作者的不懈地努力,AI的应用已经逐渐渗入我们工作和生活的很多场景和角落,在很多工作场景下,我们都不得不感叹一句”算你NB,在下告辞!“。
那么我们究竟是该屈服于AI大老爷的淫威之下,还是要起来反抗将其玩弄于股掌之间,这是一个选择!
但是无论我们如何选择,我们都应该对其有一个深入的了解,正所谓知己知彼方能百战不殆。

关于作者

原本只是平时做做产品,写写代码,过着平静又惬意的生活。在感受到ChatGPT的淫威之后,深感幸福生活受到了严重的威胁。本着打不过就加入的原则,遂改投AI门下,经过一段时间的探索,稍有些心得,撰写此文,一方面回顾和总结一下最近之所学,一方面也可给外门的师弟师妹一些借鉴和参考。

关于内容

阅读对象

正如前文所说,在下乃是外门弟子,对已入内门的各位师兄师姐们应是帮助不大,希望能对仍在外门的师弟师妹们有些许帮助。

目标

本文的内容更多是从概念和认识上入手,以了解和入门为目标,先对大语言模型领域有一个整体的认识,目标是为了帮助外门弟子能更好的理解秘籍内容以及更好的理解长老讲经的内容。通过对大模型有一个大致的了解,再根据自己当前的情况与角色决定自己下一步要如何深入

范围

前面说的ChatGPT们都是基于大语言模型的应用,因此,本文主要也是围绕着大语言模型和基于大语言模型的应用来讨论的。

目录

  • 什么是大语言模型

  • 定义

  • 特点

  • Transformer是如何工作的

  • Transformer的结构

  • 大模型的类型

  • 开源大模型

  • 闭源大模型

  • 开源VS.闭源

  • 在哪里可以找到开源模型

  • 大模型全流程

  • RAG

  • AGENT

  • 数据

  • 预训练模型

  • 训练

  • 微调

  • 评测

  • 部署

  • 应用开发

  • 我们该如何参与到大模型领域中

  • 态度

  • 掌握的资源

  • 发展趋势

  • 模型小型化

  • 多模态

  • 新架构

  • 最后

什么是大语言模型

定义

大语言模型,是一种用于处理自然语言的机器学习模型,采用的是神经网络架构,属于生成式AI。它采用了预训练微调相结合的方法,通过大规模无监督语料库的训练,学习到丰富的语言知识,从而能够生成自然流畅的语言。
可以简单地理解为,这个模型可以像人脑一样学习知识,并且可以根据学习到的知识生成和自然语言一样流畅的内容。

特点

它和之前的自然语言模型相比有了什么样的创新?主要是两个方面,一个是大,一个是新。

参数大(大脑中的神经元多)

参数可以简单的类比大脑中的神经元,大脑中的神经元越多理论上就越可能出现更高级的智慧。
GPT-3的参数就高达1750亿个,马斯克开源的模型Grok-1有3140亿个参数,很多开源的大模型比如Meta开源的Llama 3 70B,模型参数有700亿。
而且在榜单上,各类评分比较高的通常参数也都比较大,尤其是有关逻辑或数学方面得分越高,通常参数都比较大。

学习内容多(学习过的知识多)

从公开的数据看,GPT-3的预训练数据量就高达45TB,并且涵盖了各种类型的数据,比如:维基百科、各种书籍、期刊以及代码等。

需要的资源多(承载它所需的资源大)

众所周知,训练大语言模型需要大量的显卡,各个大型AI公司都在储备大量的显卡,根据公开的数据,GOOGLE拥有的显卡数量就高达2.6万块H100,其他公司也在大量储备显卡资源(2.6万块H100,它的显存就有2.6万*80GB=2080000GB)。等我们深入地了解大模型的原理之后就能明白为什么它需要这么多的资源了。
运行这么多的资源

新(新思路,新范式)

新的架构,Transformer。
Transformer模型最初由Google团队在2017年6月12日发布的论文《Attention Is All You Need》中提出。
Transformer模型采用了自注意力机制(Self-Attention)、多头注意力机制和位置注意力机制等关键技术,这些都极大地增强了模型的处理能力和学习效率。
它是当下最流行的一种架构。

Transformer是如何工作的

我们大致上了解一下Transformer的工作原理。
如果希望了解详细的工作原理可以参考以下内容:
《Attention Is All You Need》
https://jalammar.github.io/illustrated-transformer/
https://www.cnblogs.com/mantch/p/11591937.html
首先我们看看Transformer的架构图


简单地来说,基于Transformer架构的生成式AI模型,既然是生成式AI,那么它的主要目标就是生成文本。
在生成文本时是根据输入的内容(可能是一句话)和已经生成的文本一起生成一个新的字(或者叫token),直到模型确定已经生成结束。
也就是说,当前生成的字将作为生成新字的输入,这样一字一字的生成。
如果了解复杂的概念还有点费劲的话,关于它是如何工作的,了解到这里就可以了。等你对它有更深一步了解的时候再看下面的Transformer的结构和Transformer的运行机制也可以。现在你只要知道,它是根据你的输入和之前的输出来生成文本的就可以了。
举一个例子,比如你输入一个“我”,它会根据你输入这个“我”生成“我是”,然后再根据“我是”,生成“我是AI”。
至于它为什么会根据“我”生成“我是”最后生成“我是AI”,那是因为训练这个模型的数据导致的。如果更换训练数据训练大模型,它有可能生成“我是大熊猫”。
当然实际情况比这个还要复杂一点,不过这个例子应该有助于我们理解它的大概原理。

Transformer的结构

它是由一个编码器(Encoder)和一个解码器(DeCoder)组成(【图1】左是编码器,右是解码器),每个编码器和解码器又是由6层编码层解码层组成(参考【图2】)。

每个编码层又包含一个自注意力层(self-attention)和一个前馈神经网络层(Feed Forward)。结构图【图1】中显示是多头注意力(Multi-Head Attention),这是为什么呢?是因为它会初始化8组平行的自注意力层组成,这样可以获得对输入序列更丰富的理解。
解码层与编码层结构类似,由一个掩码自注意力层(masked mutil-head attetion)、一个编码-解码注意力层(Encoder-Decoder)和一个前馈神经网络层,其中掩码自注意力层的作用是遮盖当前词后面的词,这样在模型训练的时候就会只关注当前词而不受后面的词的影响。编码-解码注意力层会接收编码器输出的结果与上层的自注意力层的输出作为输入,为最终输出的结果提供参考。
最后,通过Linear层和Softmax层将编码器的输出转为一组可能输出的文字的概率,选择概率较高的文字进行输出。
然后重复这个过程,直到输出了结束符号或者达到能够输出的最大长度。
Transformer的运行机制
下面这组动图就是演示Transformer推理的过程。

根据输入生成第一个“字”【图3】

根据输入和生成的结果生成下一个字【图4】
用文字描述以下图片中的过程:
第一步,用户输入一句话也就是输入序列,
第二步,Embedding模型将输入序列向量化。
第三步,将向量化的内容中加入位置信息形成一个新的向量。
第四步,将这个向量输入到编码器中,编码器经过各种计算生成一组新的向量输出。
第五步,将编码器输出的向量转为一组注意力向量K/V,这组K/V将被用在解码器的“编码-解码注意力层”,这有助于解码器将注意力集中在输入序列的适当位置。
第六步,如果还没有输出信息,则解码器根据K/V向量生成第一个输出,如果已经存在输出,则根据K/V向量和之前的输出一起交给解码器生成后面的输出。
第七步,将解码器输出的向量传入一个Linear层给将要输出的文字打分
第八步,将Linear输出的分数经过Softmax的归一化处理生成文字的概率。
第九步,选择最大的概率输出成文字。
持续执行直到输出结束符号,
这就是模型输出的最后结果。

大模型的类型

大语言模型现在主要分为两大类:
一类是开源大语言模型,比如Llama 3、GLM、Grok-1、QWen等。
一类是非开源(闭源)的大模型,比如GPT系列,Gemini、claude等。

开源大模型

开源大模型是指人人都可以获取大模型文件本身,并且可以在其基础上进一步调整出自己的模型。
开源模型的源代码和训练数据通常是公开的,这使得开发者可以根据自己的需求对模型进行修改和优化,以满足特定的应用场景。

闭源大模型

闭源大模型,用户只能通过厂商开放的API来使用大模型服务,有些闭源大模型厂商也为用户提供了微调的服务,用户也可以利用自己的数据对模型输出的结果进行调整,不过这并不能对模型本身进行修改。

开源VS.闭源

至于哪种模式能走到最后或者更有优势,我们不做探讨,他们各自都有各自的优点,我们作为用户最主要是需要知道他们各自的优缺点,能够了解他们各自的特点,并帮助我们在未来学习和使用的时候做出适合自己的选择就够了。
我们从以下几个方面来了解开源大模型和闭源大模型他们各自的优劣势。

性能

闭源模型的综合性能更高,但开源模型的性能与闭源相差并不是太大

图片来源opencompass大模型榜单
https://rank.opencompass.org.cn/leaderboard-llm/?m=24-05
通过榜单数据可以看出前10位的玩家主要还是以闭源为主,我觉得最主要原因可能是他们盈利,所以可以投入更多的资源,不论是模型本身还是。
至于如何选择,还是需要考虑具体的任务。比如:
单纯从“知识”这一个维度看,Qwen72b只比GPT-4o略低一点。
单纯从“数学”这一个维度看,开源的Llama3 70b也只比第一名的Claude3-Opus低一点。

从模型的整体性能上看,仍然是闭源模型更有优势,不过从某一个方面看开源模型与闭源模型相差并不是太大。

成本

闭源模型的成本是按输入和生成的文字数量收费,费用随使用量增加而增加。
开源模型的成本主要集中在硬件的成本和部署过程中的一些技术成本,前期一次性投入较高。
一般使用闭源模型的API时,我们需要将一些信息输入给它,它就会根据我们的输入信息返回给我们一些信息,例如,我们输入“哪座山是世界第一高峰?”,它可能会返回给我们“喜马拉雅山是世界第一高峰”。这时,它的计费方式,就是根据我们输入的tokens(“哪座山是世界第一高峰?”)数量,和返回的tokens(“喜马拉雅山是世界第一高峰”)数量进行计费。
例如,openai 的GPT-4o api的收费标准

根据我们上面对Transformer的了解,这么收费也挺合理,用多少给多少钱,其他的什么硬件成本、网络成本等都不用考虑。
当我们使用开源模型的时候,我们需要自己部署它,假如我们不考虑对他进行进一步的训练和微调而是直接部署使用的话,首先要考虑的就是硬件成本。大语言模型主要需要GPU,在其加载大模型和进行推理的时候就会需要大量的显存资源。

而且部署大模型还需要具备一定的技术知识,才能将大模型调试为一个可用的状态。如果我们需要将他作为一个服务给更多的人使用,就需要更多的技术和GPU资源。
开源模型需要比较大的一次性投入,而闭源模型需要进行长期的投入。

按这个价格大概计算一下:一块A100≈10亿个GPT-4o token
因此,在项目初期用户较少的时候使用闭源模型的API更为合适,当我们的项目到达一定规模的时候再购买硬件和服务器使用开源模型自己部署成本应该会更可控。

当然这只是单纯从成本这一个角度考虑。

灵活性

开源模型更具灵活性,可以根据自己的需求和能力进行调整。闭源模型通常只有一部分模型开放了微调的api,灵活性较弱,通常是对输出的输出格式和风格进行调整。
开源模型的结构和代码对公众开放。这使得用户可以根据自己的需求进行定制和修改,以适应特定的应用场景。微调开源模型时,可以对模型进行LoRA、QLoRA和全量参数微调,可调整的范围广,对模型的更改程度大。
而闭源模型,通常只能根据服务商提供的API进行微调,微调对模型的影响也较小,更多是对输出的输出格式和风格进行调整。

隐私和数据安全

任何产品的隐私和数据安全都是必须要考虑,而且涉及面也很广。我们作为初学者,我觉得主要需要考虑以下几个方面是:

  1. 大模型给我的数据是否是安全的、可靠的、真实有效的、不包含恶意信息的。

  2. 我给大模型的信息是否会被泄露给大模型的服务商,是否会被泄露给其他用户。

  3. 我微调的大模型在给别人使用时,是否会泄露我的重要信息,是否会生成我不希望生成的内容,是否会生成恶意的信息或代码给我的用户,其他用户会不会利用我的大模型窃取到其他用户的信息,或用户在使用时是否会将自己的信息泄露给其他人。

大模型给我的数据

在使用大模型时,我们需要明确大模型返回给我们的数据,例如代码或内容,是否安全和无恶意。我们要关注以下几个关键问题:
信息泄露:无论是开源模型还是闭源模型,都有可能在生成的文本中无意泄露训练数据中的敏感信息。
生成不适当内容:无论是开源还是闭源模型,都可能生成攻击性、不恰当或误导性的内容。
被恶意利用:无论是开源还是闭源模型,都可能被恶意用户利用,生成虚假信息或进行网络钓鱼等恶意活动。
开源模型和闭源模型的不同在于可审查性和可定制性:
可审查性

  1. 开源模型:开源模型的源代码、训练过程和训练数据都是公开的,因此用户和研究者可以对其进行审查,以了解模型的行为和潜在的安全风险。

  2. 闭源模型:训练数据通常是不公开的,我们无法预先判断它是否会产生不利或不需要的内容,事后也无法审查内容出现的原因。

可定制性

  1. 开源模型:开源模型允许用户根据自己的需求对模型进行修改和优化,例如改进模型的安全性和隐私保护能力,或者选择使用更安全的数据进行训练。

  2. 闭源模型:需要依赖模型服务提供商更谨慎和负责地使用训练数据,并提供更安全的内容策略。

我给大模型的数据

在使用大模型时,我们输入的信息会被大模型处理并生成相应的内容。关键问题在于我们提交的信息是否涉及安全和隐私问题。如果这些信息需要提交给大模型,我们必须考虑大模型是否会保存这些信息并可能泄露给他人。
首先,大模型本身通常不会存储用户的输入数据。然而,当我们使用闭源大模型服务时,数据需要通过服务商提供的API进行传输。在这种情况下,我们无法确定服务商是否会保存我们的输入信息。因此,对于敏感信息,最好避免上传。此外,有些基于大模型的应用会保存用户输入的信息作为应用的一部分功能,例如历史记录等。
使用开源大模型时,通常不会遇到这类问题。因为开源大模型的使用通常基于我们自己开发或部署的应用服务,这些服务由我们自行控制。因此,是否存储数据、如何存储以及存储后的安全性都在我们的掌控之中。

我微调大模型使用的数据

大模型微调是指使用一些数据对大模型的推理结果进行一些调整。所以,如果你的训练数据中包含一些隐私数据,那就很有可能会泄露。
同样,如果我们的训练数据中包含恶意代码或者一些恶意信息,同样就有可能影响使用我们微调后的大模型的用户。
同样,我们微调过后的大模型也是不会存储用户的信息的,但是如果我们基于我们微调的大模型开发一些应用给其他用户使用,就很有可能需要存储用户的信息,用户的隐私信息安全就是我们必须要考虑的问题。
综合前面我们列出的他们各自的特点并结合我们项目的实际情况选择适合的大模型类型。比如,我们的项目是toC的项目,且不涉及什么用户的隐私信息,前期预算不多的情况下,选择性能好的闭源大模型就是比较好的选择,如果项目需要本地化部署,那就是要考虑使用一款适合的开源模型。

在哪里可以找到开源模型

国外的模型平台:Hugging Face https://huggingface.co/
国内的模型平台:ModelScope 魔搭社区 https://modelscope.cn/
通常开源模型都会在这些平台发布

大模型全流程

在这一部分,我们将一起探讨大模型从训练到应用的整个过程,并了解每个步骤中需要做的具体工作。

数据

大模型的性能和能力在很大程度上取决于数据的质量。
高质量的数据对于提升模型的表现至关重要。它就像一个擅长学习的大脑,学习的效果取决于我们教它什么。
在这个步骤中,我们需要找到或制作出能训练出性能更高的模型的数据。例如,有研究者发现使用“弱智吧”的数据可以显著提升模型的性能。
还有如果我们需要大模型具备某一垂直领域的知识,就必须准备该领域的优质数据。

预训练模型

不同的厂商提供了各种预训练模型,它们在模型设计、训练方法、训练数据和优化策略等方面都有所不同。因此,这些模型在性能、效果和参数大小上也各有差异。
这些厂商不断尝试开发出更强大的架构,研究出更高效的训练方法,以及各种优化策略,以提升模型的整体性能。

微调

微调是指在预训练模型的基础上,使用特定任务的数据进行再训练,以提高模型在该任务上的表现。这一步骤至关重要,因为它能使模型更好地适应特定的应用场景。微调需要选择合适的超参数,并根据具体任务的需求调整模型结构和训练策略,以达到最佳效果。

评测

在模型训练和微调完成后,需要对模型进行全面地评测,以确保其性能满足预期。
评测过程通常包括多种指标的测试,例如准确率、召回率、F1值等。此外,还需要进行实际场景测试,观察模型在真实应用中的表现。这一步骤能帮助我们发现模型的缺陷和不足,从而进行进一步的优化和改进。
因此,探索更准确的评测方法和标准,开发出更便利的评测工具,就是这个阶段的研究者主要努力的方向。

部署

一旦模型通过评测,接下来就是部署阶段。部署需要考虑模型在实际环境中的运行效率和稳定性以及资源的占用。我们需要选择合适的硬件和软件平台,确保模型在生产环境中的高效运行。同时,还需要设置监控系统,以便及时发现和解决运行中可能出现的问题。

应用开发

在模型成功部署后,最后一步是开发实际的应用程序,使模型的能力能够真正为用户所用。这最主要的是能够结合用户的应用场景与需求,再合理的搭配大模型的能力,创造出真正能够服务于用户并且解决用户痛点,给用户带来真实的价值。
现在大模型应用开发当前主流的方向有两个,一个是RAG系统、一个是Agent系统。

RAG系统

定义
检索增强生成(Retrieval-Augmented Generation, RAG)是一种先进的人工智能技术框架,它通过从现有的数据库或文档集或知识库中检索相关信息,并在此基础上生成内容。
这种系统能够显著提高生成文本的质量和相关性,使其更加符合用户的需求和期望。
RAG系统主要由两个部分构成:一是智能检索器(Search Engine)和大型语言模型(Large Language Models, LLMs)的生成模型。智能检索器负责从各种来源检索信息,而生成模型则负责基于这些信息来生成响应。
应用场景
RAG的应用场景非常广泛,包括但不限于以下两个方面:

  1. 智能问答系统(QA Systems):RAG技术被用于构建能够回答用户各种问题的强大问答系统。与传统基于规则或基于检索的方法相比,RAG能够提供更丰富、更准确的答案,满足用户对个性化内容需求的增长。

  2. 信息检索(Information Retrieval):RAG能够改进信息检索系统,使其更准确和深入。用户可以通过提出更具体的查询来获得更具体的答案,而不再局限于关键词匹配。

Agent系统

定义
Agent系统,或称为智能体,是一种在特定的环境中执行自主活动的软件系统。它们的设计目的是为了实现某些特定目的,这些系统能够灵活、自主地在其环境中进行活动。
说简单点,就是它可以根据用户提出的要求,自己思考该如何行动,如何使用什么工具、执行任务之后还能观察执行结果以确定进一步的动作。可以理解为一个会自己分析和解决问题的智能助手。
应用场景
Agent的应用场景非常广泛,以下只是简单地举几个例子:

  1. **软件开发:**虽然大多还在实验阶段,不过有一些项目已经可以根据用户的一句话需求,完成从产品设计到最后产品交付的全过程。

  2. **游戏领域:**该智能体能够完全解锁《我的世界》主世界的整体科技树的 262 个物品(以往所有智能体方法包括 OpenAI 和 DeepMind 在内总共只解锁了 78 个)

  3. **教育领域:**Agent系统可以用于个性化学习平台、智能辅导和答疑、自适应测评系统、虚拟教育助手、情感分析与支持、虚拟现实 (VR)和增强现实 (AR)教育、教育内容创作、智能推荐系统、教育数据分析以及远程教育和在线学习等。

我们该如何参与到大模型领域中

关于具体我们可以如何参与到这次人工智能带来的技术浪潮中,我想从两个方面来分享我的思考:一个是态度,一个是掌握的资源。

态度

我认为,我们应该积极学习并深入了解这次人工智能浪潮。
我们当前的工作情况,可以分为两种类型:与计算机技术有关或是与计算机技术无关,我们将分别讨论。

与计算机技术有关

我们的工作天然的与人工智能很接近,所以我们应该分出一部分精力去深入地了解这方面的相关知识,即使不能直接参与也要积极的去了解、探索和尝试。
要学习人工智能的基本原理和应用,关注其最新进展和前沿技术。
如果有可能,在实际工作中,我们应该尝试将人工智能技术应用到我们的项目中。无论是通过开发新的智能应用程序,还是通过优化现有的系统和流程,人工智能都可以为我们的工作带来显著的改进和创新。
现在这些大的技术型公司都在加大对人工智能方面的投入,我们作为个人同样应该用一个积极的心态去拥抱这些技术变革

积极拥抱

与计算机技术无关

无论我们在社会中扮演什么角色,都应正视由大语言模型推动的人工智能发展。即使由于各种原因,我们无法直接参与人工智能技术的发展领域,也应确保自身或企业处于**“AI-READY”的状态**。
“AI-READY”状态意味着我们个人或企业始终准备迎接AI对行业带来的变革。
人工智能发展的车轮滚滚向前,如果我们不能在心理和行动上做好准备,可能会被竞争对手利用这一划时代的工具迅速超越,就像蒸汽机、互联网和移动互联网出现时一样。
我们应该积极地去了解和使用已经由人工智能技术公司开发出来的一些应用,积极了解背后的原理,并尝试的应用在我们日常的工作流程中。

“AI-READY”的状态

掌握的资源

我们具体可以参与到哪些方面呢?这就需要参考我们自身的情况了。我们可以从人工智能行业全流程来看一看:

序号我们掌握的资源所属流程我们能干什么
1如果我们掌握某垂直行业的数据,比如,某种医疗疾病数据数据我们可以基于开源模型微调出自己的垂直行业模型,或者与第三方技术公司合作一起微调出垂直行业的模型。
2需要掌握相关的技术资源以及大量的计算资源预训练模型这个通常只有大公司才会做。例如,OpenAI,Google,百度、华为等等。他们通常会提供开源的预训练大模型或者模型使用的API。

| 3 | 拥有一定的计算资源,高质量的数据集或者有拥有数据集的合作伙伴,专业的技术团队 | 微调 | 可以帮助客户做数据的收集、清洗和准备高质量的数据集。
提供不同开源的预训练大模型的微调,以适应特定任务或领域。 |
| 4 | 专业的技术团队或能力。
具备先进的评估方法或工具 | 评测 | 对现有模型进行评估,选择更适合客户的大模型。
对用户微调后的模型进行评估。
提供详细的性能报告,并根据评估结果进行进一步的优化。 |
| 5 | 专业的技术团队或能力。
具备先进的部署方法或工具 | 部署 | 帮助客户将模型部署到生产环境中,确保其稳定运行。提供持续的技术支持和维护服务。通常微调、评测和部署是一整个微调环节的不同 |
| 6 | 要求有一定的人工智能知识、一定的软件开发知识、相应的开发语言能力、了解一定的AI应用开发范式或开发框架的知识 | 应用开发 | 根据用户的使用场景,为用户提供基于用户大语言模型的应用开发。 |
| 7 | 了解AI应用的操作方法,清楚该应用能够完成的工作 | 使用AI应用 | 利用AI应用优化自己或公司现有的工作流程,了解和学习AI知识。 |

发展趋势

从目前的情况来看大型语言模型的发展趋势大致有以下几个方向:

模型小型化

现在的模型多是动辄千亿参数,这需要的算力就限制了它的应用场景。为了解决这个问题,现在已经有很多厂商发布了较小参数的模型,在维持了一定推理能力的前提下将参数缩小,微软发布的Phi-3 Mini模型仅有38亿参数,可以跑在手机里,但是性能与GPT-3.5接近,这就意味着可以讲模型的推理能力部署在更多类型的终端和场景里。

多模态

多模态也是大模型的一个重要的发展方向,最近发布的GPT-4o就可以接受图片甚至音频信息,这与之前的将音频转为文字再提交给GPT模型的方式不同,而是有GPT直接处理音频信息。将来一定是让大模型具备处理更多模态的能力,如可以接收视频、音频同时也可以稳定的输出各种模态的信息,比如,视频或音频。

新架构

随着各路厂商和大神的研究,基于Transformer架构的大语言模型加上GPU的模式的性能曲线很快就将趋于平缓,新的硬件架构加上新的模型架构也必将接下Transformer和英伟达受众的接力棒,例如,将来一定会出现基于存算一体架构的新的模型架构。

最后

总之,随着技术的不断进步和需求的不断变化,大型语言模型的发展方向将会更加多样化和专业化。也必将与我们日常的生活和工作的结合越来越紧密。
所以,欢迎各位小伙伴一起学习讨论,同时也欢迎大佬批评指正。

在这里插入图片描述

大模型&AI产品经理如何学习

求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。

1.学习路线图

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。

在这里插入图片描述

在这里插入图片描述

(都打包成一块的了,不能一一展开,总共300多集)

因篇幅有限,仅展示部分资料,需要点击下方图片前往获取

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
在这里插入图片描述

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

  • 6
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值