1 AI大模型介绍
chat-gpt、sora、sd、文心一言(GAI,生成式AI)等等,这些是大模型嘛,准确来说这些只是大模型落地的产品;“大模型”通常指的是拥有大量参数的深度学习模型;因此对计算资源要求很高,入门门槛也比较高。作为一个普通人我们能做的就是在预训练的模型基础上然后做下游任务。如何落地是我们关心的。遇到什么问题,如何解决是我们学习的方法论。
目前大模型的岗位:
- AI 产品策划;
- Ai大模型应用开发;
- AI大模型训练/评测;
- AI大模型算法;
- Ai大模型专家;
1.1 大模型的特点
参数量大:
- 大模型通常具有数百万至数十亿的参数。例如,GPT-3 拥有超过 1750 亿个参数,而 PaLM(Pathways Language Model)更是达到了 5400 亿个参数。
训练数据规模大:
- 大模型通常是在海量数据上训练的,数据集可能包含数万亿个标记(token)。
计算资源要求高:
- 训练大模型通常需要大量的计算资源,包括高性能的 GPU 或 TPU 集群。例如,训练 GPT-3 需要数千张 GPU 并行运算。
多模态能力: