开发大模型or使用大模型?

最新推荐文章于 2024-09-07 21:52:58 发布

真-忒修斯之船

最新推荐文章于 2024-09-07 21:52:58 发布

阅读量988

点赞数 22

分类专栏： LLMForEverybody 文章标签：人工智能深度学习自然语言处理

本文链接：https://blog.csdn.net/qq_25295605/article/details/141884573

版权

LLMForEverybody 专栏收录该内容

24 篇文章 0 订阅

订阅专栏

#AI模型：追求全能还是专精？#

大模型的更新让人眼花缭乱,但整个大模型的生态圈,其实是分工明确的.大部分的大模型从业者都是在使用大模型,而不是在开发基座大模型.

1. 越来越昂贵的Pre-Training

大模型预训练的代价是多方面的，涉及显卡（GPU）、数据、存储等多个角度。以下是对这些方面的详细阐述：

显卡（GPU）成本：

训练大型模型需要大量的GPU资源。例如，训练一个千亿参数规模的大模型可能需要数千个英伟达A100 GPU，每个GPU的成本约为10,000美元。如果按照这样的规模计算，仅GPU成本就可达数亿美元。

数据成本：

大模型训练需要海量的数据。数据的采集、清洗、标注和存储都需要成本。例如，预训练数据集可能需要经过大量的前置步骤，包括数据抓取、清洗、转换等，这些步骤涉及大量的实验，处理的数据量通常是正式训练数据集的100倍以上。

存储成本：

存储系统性能与成本之间的平衡是一个重要考虑因素。高性能文件系统如GPFS、Lustre等通常依赖全闪存（NVMe）和高性能网络，成本较高。对象存储虽然成本较低，但可能需要额外的人力和时间去处理数据同步、迁移和一致性管理等任务。

数据中心成本：

数据中心的运营成本包括电力、冷却和维护等。这些成本随着GPU数量和数据中心规模的增加而增加。

人力成本：

训练大型模型需要一支专业的工程师和科学家团队，包括数据工程师、AI研究员、软件工程师等。这些人才的薪资和福利是另一个重要的成本因素。

2. 你真的有机会预训练大模型吗？

绝大部分的大模型从业者都不会从事基座大模型的开发.

预训练的很多技术,你可能在技术博客里看到,可能会在面试的时候被问到,但也许永远也不会在实际工作中用到. 因为预训练太昂贵了,而且很多公司也没有这个需求.

大部分的大模型从业者都是在使用大模型,而不是在开发基座大模型.

从难易程度上来分,大模型的应用基本包含以下五个方面:

策略	难度	数据要求
Prompt Engineering	低	无
Self-Reflection	低	无
RAG	中	少量
Agent	中	少量
Fine-tuning	高	中等

3. Prompt Engineering

Prompt Engineering 是优化 prompts 以获得有效输出的艺术和科学。它涉及设计、编写和修改 prompts，以引导 AI 模型生成高质量、相关且有用的响应。

请添加图片描述

4. Self-Reflection

在实际工作中,我发现很多伙伴并没有意识到Self-Reflection的重要性. 其实Self-Reflection是一个简单但非常有用的策略.

以一个NL2SQL的例子来说明：

第一次交互

question = ''
prompt = f'{question}'
plain_query = llm.invoke(prompt)
try:
    df = pd.read_sql(plain_query)
    print(df)
except Exception as e:
    print(e)

拿到了错误后,我们可以通过反思错误,来改进我们的问题,直到我们得到我们想要的答案.

Reflection

reflection = f"Question: {question}. Query: {plain_query}. Error:{e}, so it cannot answer the question. Write a corrected sqlite query."

第二次交互

reflection_prompt = f'{reflection}'
reflection_query = llm.invoke(reflection_prompt)
try:
    df = pd.read_sql(reflection_query )
    print(df)
except Exception as e:
    print(e)