第1章 课程简介课程链接:
https://xihe.mindspore.cn/course/lessonvideo/ascend-orange-pi/1.1
学习笔记:昇思DeepSeek课程相关内容
一、课程背景相关
-
DeepSeek的关注度:从春节开始,DeepSeek引发了诸多关注和讨论。
-
模型的发展与特点
-
相比之前的模型,部分模型的变迁体现在使用质量更好、更完备的数据集,或对位置编码等激活函数做小范围改动。
-
DeepSeek进行了很多尝试和创新,更大程度压缩了算力使用和空间(如显存占用),能以较低成本训练出效果可与成本高几倍的模型比肩的模型。
-
DeepSeek是开源的,对学术界、科研企业乃至个人开发者具有吸引力,大家可以自己尝试使用。
-
-
资源门槛与蒸馏模型
-
DeepSeek对开发算力、服务器等有一定需求,存在资源门槛。
-
因此推出了面向DeepSeek的蒸馏模型,其特点是能相应继承DeepSeek的部分能力,规格较小,对算力等资源的需求量较低,成本也较低。基于垂域领域的数据集或个人数据集做SFT等,能达到不错的效果。
-
二、课程内容相关
-
核心围绕对象:课程围绕昇思开发版上的DeepSeek蒸馏模型,基于昇思MindSpore展开。
-
讲解内容:讲解模型从开发到微调,乃至推理性能提升的实践全流程。
-
代码复用与迁移
-
开发版上调并掌握的流程的脚本和思路,可复用到更好资源或算力更优的服务器及硬件上。
-
先在小规格上调整好,后续在大规格上能更快迁移。
-
-
经验与注意点:课程会结合过程中的经验,提及开发板适配需要注意的地方及相关经验。
三、课程目标
-
掌握基于MindSpore相关套件的基础使用,因课程会基于该套件进行开发。
-
借助动态图易调试的特性,掌握基于MindSpore在实践方面的开发适配、微调推理,乃至推理层面性能优化和提速的实践全流程。
-
了解在开发板上开展相关工作时,适配需要注意的地方及相关经验。
四、课程整体特点
课程主要以偏实践的角度进行讲解。
第2章 昇思+香橙派+DeepSeek介绍
学习笔记:Deepseq相关技术与实践
一、核心概念解析
-
关键术语疑问
-
“昇思MindSpore”“香橙派”的具体含义及与deepseek的关联是会议初期提出的疑问
-
后续将基于deepseekR1蒸馏出的1.5B模型开展开发适配、Lora微调及推理性能优化工作,其中微调与性能优化的时间投入相对较高
-
-
Deepseek技术方向
-
Moe模型:是当前业界主流结构,早在GP4时期就被猜测使用该结构,Deepseek进一步论证了其有效性,众多开源模型和企业均采用该结构;但存在Moe并行及通信相关的挑战与机遇
-
慢思考模型:类似类O1或R1模型,Deepseek推理时有深度求索的think环节,通过思考时间换取效果提升,成为业界探索的主要路径,如阿里巴巴的QWQ模型也有相关尝试
-
二、技术挑战与应对方向
-
预训练层面
-
需对Moe架构进行性能优化,实现不同专家间的负载均衡
-
通过掩盖通信的方式提升训练性能,同时跟上模型演进步伐并做好适配
-
-
后训练场景
-
涉及强化学习等内容,需要对相关算法提供支持和承接
-
脱离时存在算力开销大的问题
-
-
推理部署层面
-
存在数据蒸馏问题
-
需解决推理期间通信占比高的问题,同时提升吞吐精度等指标
-
三、AI框架相关知识
-
框架定位
-
类似AI操作系统或工具,可简化数据处理、模型开发、微调训练、推理部署等流程,降低开发工程门槛,避免重复造轮子
-
既能应用于虚拟场景和实际业务落地,又能对接硬件,处于承上启下的位置
-
-
架构说明
-
以MindSpore为例,上面对应模型,下面对接提供算力的硬件,存在碳异构计算架构,碳层开发算子,MindSpore层使用算子
-
MindSpore有套件层(可理解为library库),按领域分类:
-
Transformers、MindSpore Transformer:与大模型相关,新增DeepSeek支持,涉及人类对齐及强化学习
-
MindSpore science:面向AI for science,涉及流体仿真、气象预测、化学研发等
-
MindSpore one:多模态模型,集中于diffusion类生成式模型
-
-
核心层有动态图(用于调试调优)和静态图(用于性能优化)
-
-
版本演进
-
20年开源后不断演进,近期发布2.6版本,面向类DeepSeek高效训推
-
完善能力,新增套件支持、特性叠加、推理优化及调试工具提升,还进行了Moe并行优化和生态兼容(对接Megatron、huggingface、vLLM等)
-
四、Deepseq实践进展
-
春节后实现全流程训推支持,与高校和企业合作,企业侧重部署,高校侧重研究及推理部署解决方案,同时适配算力平台
-
围绕Deepseek和昇思在开发版开展工作,包括模型适配、实践、技术文章、线下培训等,部分优化来自开发者贡献
五、香橙派开发版介绍
-
概念:类似树莓派、Jetson Nano的单片计算机,本次实验以昇腾技术路线的AI Pro 20T版本为主,有8 - 12T和20T等不同算力系列
-
相关资料
-
官方资料:涵盖硬件使用、开发版连接启动、接口用途、远程连接等内容,用户手册还包含案例启动方法
-
官方镜像:预置了相关版本,可直接使用,也支持自定义更新
-
商城开发版专区:有千城派及相关案例,含视频讲解和代码实践,还有论坛供技术答疑交流
-
官网教程:包含开发版开发教程,介绍模型适用、环境搭建、基于框架开发等内容
-
六、当前进展与后续实践
-
当前进展
-
动态图对开发友好,与hugging face生态兼容,降低开发适应成本
-
可通过代码实现推理性能翻倍
-
昇腾社区案例链接到GitHub代码仓,包含多种模型案例
-
-
后续实践:以MindSpore套件中DeepSeek蒸馏模型为例,介绍在开发板上跑通流程及适配注意点
七、总结
本次会议围绕DeepSeek相关概念、技术挑战、AI框架、实践进展、开发版等内容展开,为后续的实践环节奠定了基础,帮助理解相关名词、框架、硬件及内部性知识。

被折叠的 条评论
为什么被折叠?



