1、参考文章
https://dtzed.com/institute/2024/04/10341/
2、人工智能基础知识学习
人工智能顶级名字解释:
- 人工智能
- 机器学习
- 深度学习
- 生成式AI、大模型
- 生成式AI、大模型
- 深度学习
- 机器学习
人工智能原理:
- 实际使用、推理过程:一次前向计算
- 训练过程:
- 搭建模型结构
- 准备模型数据
- n次迭代过程(以下为一次迭代):
- 前向计算
- 各层神经网络依次计算得出结果
- 向量矩阵运算
- 非线性变换
- 各层神经网络依次计算得出结果
- 损失函数计算
- 确认本次前向计算结果与目标之间的差值
- 反向传播
- 通过链式法则求导,计算各层梯度
- 更新节点
- 基于梯度的数值优化参数求解,运用随机梯度下降(SGD)来更新神经网络各层节点
- 前向计算
- 训练收敛:神经网络逐渐拟合到训练数据的高维分布,损失函数逐渐降低
大模型训练资源:
130亿参数大模型需要>230GB显存(V10032GB*8)的硬件训练资源,约等于1亿参数对应接近2GB的训练资源准备,文心4.0基于万卡进行训练
模型训练要点
模型训练最好基于已有的较为成熟的模型之上进行训练,以保证最终效果,避免训练数据、模型结构等等因素造成的影响
举例,百度的paddlepaddle提供了诸多的包含预训练模型的端到端开发套件,比如PaddleNLP(自然语言处理套件)、PaddleMIX(跨模态大模型套件)、PaddleOCR(文字识别套件)
模型部署
根据模型能力要求,分为边缘端侧部署、服务器部署
边缘端侧部署:
- 部署场景
- 物联网场景
- 移动端场景
- 部署要求:
- 模型结构轻量化处理、模型压缩
服务端部署: - 业务层模块
- 独立服务
- 模型结构轻量化处理、模型压缩