1、模型的发展方向:专用模型到通用大模型。
2、模型应用的典型流程
先进行模型的选型,若业务场景不复杂,则可直接进行模型评测和部署;若业务场景复杂,则需根据算力进行继续训练、全参数或部分参数的微调,随后,若需要进行环境交互(API等),还需构建智能体。经过上面的步骤,模型在评测后即可部署。
3、微调
增量续训:让基座模型学习到新的垂类领域的知识;
有监督微调:让模型理解指令并对话,或注入少量领域知识。
eg. 部分参数微调可以借助低秩自适应 (LoRA):冻结预训练模型权重,将原始矩阵分解为两个矩阵的乘积,其中一个矩阵的秩比另一个矩阵的秩低。这时只需要将低秩矩阵注入Transformer架构的每一层,就可以减少模型参数数量,提高训练吞吐量,并且在模型质量上表现出色,且不会增加推理延迟。
4、目前大模型的问题
理科能力和模型尺寸关联度高(文科相差较小),模型的幻觉效应。