《昇思学习营-昇思+昇腾开发板+DeepSeek学习心得》

第1章 课程简介课程链接:

https://xihe.mindspore.cn/course/lessonvideo/ascend-orange-pi/1.1

学习笔记:昇思DeepSeek课程相关内容

一、课程背景相关

  1. DeepSeek的关注度:从春节开始,DeepSeek引发了诸多关注和讨论。

  2. 模型的发展与特点

    1. 相比之前的模型,部分模型的变迁体现在使用质量更好、更完备的数据集,或对位置编码等激活函数做小范围改动。

    2. DeepSeek进行了很多尝试和创新,更大程度压缩了算力使用和空间(如显存占用),能以较低成本训练出效果可与成本高几倍的模型比肩的模型。

    3. DeepSeek是开源的,对学术界、科研企业乃至个人开发者具有吸引力,大家可以自己尝试使用。

  3. 资源门槛与蒸馏模型

    1. DeepSeek对开发算力、服务器等有一定需求,存在资源门槛。

    2. 因此推出了面向DeepSeek的蒸馏模型,其特点是能相应继承DeepSeek的部分能力,规格较小,对算力等资源的需求量较低,成本也较低。基于垂域领域的数据集或个人数据集做SFT等,能达到不错的效果。

二、课程内容相关

  1. 核心围绕对象:课程围绕昇思开发版上的DeepSeek蒸馏模型,基于昇思MindSpore展开。

  2. 讲解内容:讲解模型从开发到微调,乃至推理性能提升的实践全流程。

  3. 代码复用与迁移

    1. 开发版上调并掌握的流程的脚本和思路,可复用到更好资源或算力更优的服务器及硬件上。

    2. 先在小规格上调整好,后续在大规格上能更快迁移。

  4. 经验与注意点:课程会结合过程中的经验,提及开发板适配需要注意的地方及相关经验。

三、课程目标

  1. 掌握基于MindSpore相关套件的基础使用,因课程会基于该套件进行开发。

  2. 借助动态图易调试的特性,掌握基于MindSpore在实践方面的开发适配、微调推理,乃至推理层面性能优化和提速的实践全流程。

  3. 了解在开发板上开展相关工作时,适配需要注意的地方及相关经验。

四、课程整体特点

课程主要以偏实践的角度进行讲解。

第2章 昇思+香橙派+DeepSeek介绍

学习笔记:Deepseq相关技术与实践

一、核心概念解析

  1. 关键术语疑问

    1. “昇思MindSpore”“香橙派”的具体含义及与deepseek的关联是会议初期提出的疑问

    2. 后续将基于deepseekR1蒸馏出的1.5B模型开展开发适配、Lora微调及推理性能优化工作,其中微调与性能优化的时间投入相对较高

  2. Deepseek技术方向

    1. Moe模型:是当前业界主流结构,早在GP4时期就被猜测使用该结构,Deepseek进一步论证了其有效性,众多开源模型和企业均采用该结构;但存在Moe并行及通信相关的挑战与机遇

    2. 慢思考模型:类似类O1或R1模型,Deepseek推理时有深度求索的think环节,通过思考时间换取效果提升,成为业界探索的主要路径,如阿里巴巴的QWQ模型也有相关尝试

二、技术挑战与应对方向

  1. 预训练层面

    1. 需对Moe架构进行性能优化,实现不同专家间的负载均衡

    2. 通过掩盖通信的方式提升训练性能,同时跟上模型演进步伐并做好适配

  2. 后训练场景

    1. 涉及强化学习等内容,需要对相关算法提供支持和承接

    2. 脱离时存在算力开销大的问题

  3. 推理部署层面

    1. 存在数据蒸馏问题

    2. 需解决推理期间通信占比高的问题,同时提升吞吐精度等指标

三、AI框架相关知识

  1. 框架定位

    1. 类似AI操作系统或工具,可简化数据处理、模型开发、微调训练、推理部署等流程,降低开发工程门槛,避免重复造轮子

    2. 既能应用于虚拟场景和实际业务落地,又能对接硬件,处于承上启下的位置

  2. 架构说明

    1. 以MindSpore为例,上面对应模型,下面对接提供算力的硬件,存在碳异构计算架构,碳层开发算子,MindSpore层使用算子

    2. MindSpore有套件层(可理解为library库),按领域分类:

      • Transformers、MindSpore Transformer:与大模型相关,新增DeepSeek支持,涉及人类对齐及强化学习

      • MindSpore science:面向AI for science,涉及流体仿真、气象预测、化学研发等

      • MindSpore one:多模态模型,集中于diffusion类生成式模型

    3. 核心层有动态图(用于调试调优)和静态图(用于性能优化)

  3. 版本演进

    1. 20年开源后不断演进,近期发布2.6版本,面向类DeepSeek高效训推

    2. 完善能力,新增套件支持、特性叠加、推理优化及调试工具提升,还进行了Moe并行优化和生态兼容(对接Megatron、huggingface、vLLM等)

四、Deepseq实践进展

  1. 春节后实现全流程训推支持,与高校和企业合作,企业侧重部署,高校侧重研究及推理部署解决方案,同时适配算力平台

  2. 围绕Deepseek和昇思在开发版开展工作,包括模型适配、实践、技术文章、线下培训等,部分优化来自开发者贡献

五、香橙派开发版介绍

  1. 概念:类似树莓派、Jetson Nano的单片计算机,本次实验以昇腾技术路线的AI Pro 20T版本为主,有8 - 12T和20T等不同算力系列

  2. 相关资料

    1. 官方资料:涵盖硬件使用、开发版连接启动、接口用途、远程连接等内容,用户手册还包含案例启动方法

    2. 官方镜像:预置了相关版本,可直接使用,也支持自定义更新

    3. 商城开发版专区:有千城派及相关案例,含视频讲解和代码实践,还有论坛供技术答疑交流

    4. 官网教程:包含开发版开发教程,介绍模型适用、环境搭建、基于框架开发等内容

六、当前进展与后续实践

  1. 当前进展

    1. 动态图对开发友好,与hugging face生态兼容,降低开发适应成本

    2. 可通过代码实现推理性能翻倍

    3. 昇腾社区案例链接到GitHub代码仓,包含多种模型案例

  2. 后续实践:以MindSpore套件中DeepSeek蒸馏模型为例,介绍在开发板上跑通流程及适配注意点

七、总结

本次会议围绕DeepSeek相关概念、技术挑战、AI框架、实践进展、开发版等内容展开,为后续的实践环节奠定了基础,帮助理解相关名词、框架、硬件及内部性知识。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值