《昇思学习营-昇思+昇腾开发板+DeepSeek学习心得》-CSDN博客

第1章课程简介课程链接：

https://xihe.mindspore.cn/course/lessonvideo/ascend-orange-pi/1.1

DeepSeek的关注度：从春节开始，DeepSeek引发了诸多关注和讨论。
模型的发展与特点
1. 相比之前的模型，部分模型的变迁体现在使用质量更好、更完备的数据集，或对位置编码等激活函数做小范围改动。
2. DeepSeek进行了很多尝试和创新，更大程度压缩了算力使用和空间（如显存占用），能以较低成本训练出效果可与成本高几倍的模型比肩的模型。
3. DeepSeek是开源的，对学术界、科研企业乃至个人开发者具有吸引力，大家可以自己尝试使用。
资源门槛与蒸馏模型
1. DeepSeek对开发算力、服务器等有一定需求，存在资源门槛。
2. 因此推出了面向DeepSeek的蒸馏模型，其特点是能相应继承DeepSeek的部分能力，规格较小，对算力等资源的需求量较低，成本也较低。基于垂域领域的数据集或个人数据集做SFT等，能达到不错的效果。

核心围绕对象：课程围绕昇思开发版上的DeepSeek蒸馏模型，基于昇思MindSpore展开。
讲解内容：讲解模型从开发到微调，乃至推理性能提升的实践全流程。
代码复用与迁移
1. 开发版上调并掌握的流程的脚本和思路，可复用到更好资源或算力更优的服务器及硬件上。
2. 先在小规格上调整好，后续在大规格上能更快迁移。
经验与注意点：课程会结合过程中的经验，提及开发板适配需要注意的地方及相关经验。

课程主要以偏实践的角度进行讲解。

关键术语疑问
1. “昇思MindSpore”“香橙派”的具体含义及与deepseek的关联是会议初期提出的疑问
2. 后续将基于deepseekR1蒸馏出的1.5B模型开展开发适配、Lora微调及推理性能优化工作，其中微调与性能优化的时间投入相对较高
Deepseek技术方向
1. Moe模型：是当前业界主流结构，早在GP4时期就被猜测使用该结构，Deepseek进一步论证了其有效性，众多开源模型和企业均采用该结构；但存在Moe并行及通信相关的挑战与机遇
2. 慢思考模型：类似类O1或R1模型，Deepseek推理时有深度求索的think环节，通过思考时间换取效果提升，成为业界探索的主要路径，如阿里巴巴的QWQ模型也有相关尝试

框架定位
1. 类似AI操作系统或工具，可简化数据处理、模型开发、微调训练、推理部署等流程，降低开发工程门槛，避免重复造轮子
2. 既能应用于虚拟场景和实际业务落地，又能对接硬件，处于承上启下的位置
架构说明
1. 以MindSpore为例，上面对应模型，下面对接提供算力的硬件，存在碳异构计算架构，碳层开发算子，MindSpore层使用算子
2. MindSpore有套件层（可理解为library库），按领域分类：
  - Transformers、MindSpore Transformer：与大模型相关，新增DeepSeek支持，涉及人类对齐及强化学习
  - MindSpore science：面向AI for science，涉及流体仿真、气象预测、化学研发等
  - MindSpore one：多模态模型，集中于diffusion类生成式模型
3. 核心层有动态图（用于调试调优）和静态图（用于性能优化）
版本演进
1. 20年开源后不断演进，近期发布2.6版本，面向类DeepSeek高效训推
2. 完善能力，新增套件支持、特性叠加、推理优化及调试工具提升，还进行了Moe并行优化和生态兼容（对接Megatron、huggingface、vLLM等）

概念：类似树莓派、Jetson Nano的单片计算机，本次实验以昇腾技术路线的AI Pro 20T版本为主，有8 - 12T和20T等不同算力系列
相关资料
1. 官方资料：涵盖硬件使用、开发版连接启动、接口用途、远程连接等内容，用户手册还包含案例启动方法
2. 官方镜像：预置了相关版本，可直接使用，也支持自定义更新
3. 商城开发版专区：有千城派及相关案例，含视频讲解和代码实践，还有论坛供技术答疑交流
4. 官网教程：包含开发版开发教程，介绍模型适用、环境搭建、基于框架开发等内容