开发大模型or使用大模型?

近日,OpenAI预计在秋季推出代号为“草莓”的新AI。从专注于数学问题到处理主观营销策略,"草莓"模型展现出惊人的多样性。

大模型的更新让人眼花缭乱,但整个大模型的生态圈,其实是分工明确的.大部分的大模型从业者都是在使用大模型,而不是在开发基座大模型.

1. 越来越昂贵的Pre-Training

大模型预训练的代价是多方面的,涉及显卡(GPU)、数据、存储等多个角度。以下是对这些方面的详细阐述:

显卡(GPU)成本

训练大型模型需要大量的GPU资源。例如,训练一个千亿参数规模的大模型可能需要数千个英伟达A100 GPU,每个GPU的成本约为10,000美元。如果按照这样的规模计算,仅GPU成本就可达数亿美元。

数据成本

大模型训练需要海量的数据。数据的采集、清洗、标注和存储都需要成本。例如,预训练数据集可能需要经过大量的前置步骤,包括数据抓取、清洗、转换等,这些步骤涉及大量的实验,处理的数据量通常是正式训练数据集的100倍以上。

存储成本

存储系统性能与成本之间的平衡是一个重要考虑因素。高性能文件系统如GPFS、Lustre等通常依赖全闪存(NVMe)和高性能网络,成本较高。对象存储虽然成本较低,但可能需要额外的人力和时间去处理数据同步、迁移和一致性管理等任务。

数据中心成本

数据中心的运营成本包括电力、冷却和维护等。这些成本随着GPU数量和数据中心规模的增加而增加。

人力成本

训练大型模型需要一支专业的工程师和科学家团队,包括数据工程师、AI研究员、软件工程师等。这些人才的薪资和福利是另一个重要的成本因素。

2. 你真的有机会预训练大模型吗?

绝大部分的大模型从业者都不会从事基座大模型的开发.

预训练的很多技术,你可能在技术博客里看到,可能会在面试的时候被问到,但也许永远也不会在实际工作中用到. 因为预训练太昂贵了,而且很多公司也没有这个需求.

大部分的大模型从业者都是在使用大模型,而不是在开发基座大模型.

从难易程度上来分,大模型的应用基本包含以下五个方面:

策略难度数据要求
Prompt Engineering
Self-Reflection
RAG少量
Agent少量
Fine-tuning中等

3. Prompt Engineering

Prompt Engineering 是优化 prompts 以获得有效输出的艺术和科学。它涉及设计、编写和修改 prompts,以引导 AI 模型生成高质量、相关且有用的响应。

4. Self-Reflection

在实际工作中,我发现很多伙伴并没有意识到Self-Reflection的重要性. 其实Self-Reflection是一个简单但非常有用的策略.

以一个NL2SQL的例子来说明:

第一次交互

question = ''
prompt = f'{question}'
plain_query = llm.invoke(prompt)
try:
    df = pd.read_sql(plain_query)
    print(df)
except Exception as e:
    print(e)

拿到了错误后,我们可以通过反思错误,来改进我们的问题,直到我们得到我们想要的答案.

Reflection

reflection = f"Question: {question}. Query: {plain_query}. Error:{e}, so it cannot answer the question. Write a corrected sqlite query."

第二次交互

reflection_prompt = f'{reflection}'
reflection_query = llm.invoke(reflection_prompt)
try:
    df = pd.read_sql(reflection_query )
    print(df)
except Exception as e:
    print(e)

5. RAG

检索增强生成(Retrieval-Augmented Generation,简称 RAG)通过结合大型语言模型(LLM)和信息检索系统来提高生成文本的准确性和相关性。这种方法允许模型在生成回答之前,先从权威知识库中检索相关信息,从而确保输出内容的时效性和专业性,无需对模型本身进行重新训练。

RAG技术之所以重要,是因为它解决了LLM面临的一些关键挑战,例如虚假信息的提供、过时信息的生成、非权威来源的依赖以及由于术语混淆导致的不准确响应。通过引入RAG,可以从权威且预先确定的知识来源中检索信息,增强了对生成文本的控制,同时提高了用户对AI解决方案的信任度。

6. Agent

Agent指的是一个能够感知其环境并根据感知到的信息做出决策以实现特定目标的系统,通过大模型的加持,Agent比以往任何时候都要更加引人注目。

Langchain

以Langchain为代表的Agent框架,是目前在国内最被广泛使用的开源框架,LangChain刚开始的设计理念是将工作流设计为DAG(有向无环图),这就是Chain的由来;

随着Muti-Agent理念的兴起和Agent范式的逐渐确立,Agent工作流会越来越复杂,其中包含了循环等条件,需要用Graph图的方式,由此又开发了LangGraph。

7. Fine-tuning

相较于基础大模型动辄万卡的代价,微调可能是普通个人或者企业少数能够接受的后训练大模型(post-training)的方式。

微调是指在一个预训练模型(pre-training)的基础上,通过少量的数据和计算资源,对模型进行进一步训练,以适应特定的任务或者数据集。

微调分为两种类型:全参微调(full fine-tuning)和参数高效微调(parameter efficient fine-tuning)。

  • 全参微调:在全参微调中,整个模型的参数都会被更新,这种方法通常需要大量的数据和计算资源,以及较长的训练时间。

PEFT

参数高效微调(Parameter-Efficient Fine-Tuning,简称PEFT)是一种针对大型预训练模型(如大语言模型)的微调技术,它旨在减少训练参数的数量,从而降低计算和存储成本,同时保持或提升模型性能。

PEFT通过仅微调模型中的一小部分参数,而不是整个模型,来适应特定的下游任务。这种方法特别适用于硬件资源受限的情况,以及需要快速适配多种任务的大型模型。

PEFT有以下几种常见的方法:

  • 选择参数子集:选择模型中的一小部分参数进行微调,通常是最后几层的参数;
  • 重新参数化:使用低秩表示重新参数化模型权重,代表是LoRA方法;
  • 添加参数:向模型添加可训练层或参数,代表为Prompt-tuning方法。

总结

大模型已经进入到应用落地阶段,此时的大模型从业者,更多的应该是在使用大模型,而不是在开发基座大模型.

在这里插入图片描述

如何学习AI大模型?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

  • 15
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
模型表达通常是指使用大规模预训练语言模型来进行文本生成、理解或对话交互的过程,这些模型如GPT-3、通义千问等,能够根据输入的提示进行复杂的语义理解和生成高质量的内容。在技术上,大模型表达可能涉及到自然语言处理(NLP)和深度学习技术。 前后端开发技术栈主要包括以下几个关键部分: 1. 前端技术: - HTML/CSS: 前端的基础结构和样式,分别用于描述网页内容和视觉呈现。 - JavaScript: 动态网页的核心,负责交互和数据处理。 - React, Angular, Vue: 框架,帮助开发者构建可复用组件和管理状态。 - Axios or Fetch: 发送HTTP请求,实现与后端通信。 - UI库:如Bootstrap, Ant Design, Material-UI, 用于快速构建美观的界面。 2. 后端技术: - Node.js: 使用JavaScript开发服务器端应用,搭配Express等框架。 - Java, Python, Ruby: 常见的后端编程语言,有Spring Boot, Django, Flask等框架。 - RESTful API设计: 设计数据接口,让前端能访问和操作数据。 - GraphQL: 可选的查询语言,提供更灵活的数据获取方式。 - ORM (如Hibernate, SQLAlchemy): 数据库操作的抽象层,简化数据操作。 - 后端框架: Express (Node), Django REST framework (Python), Rails (Ruby) 等。 3. 其他相关技术: - 安全:HTTPS, JWT, OAuth2等用于数据传输安全。 - 数据库:MySQL, PostgreSQL, MongoDB等关系型和非关系型数据库。 - API Gateway: 如AWS API Gateway,用于统一管理和授权API访问。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值