Mindspore第二期两日集训营总结分享

最新推荐文章于 2022-07-20 16:22:22 发布

Beef_EATER

最新推荐文章于 2022-07-20 16:22:22 发布

阅读量199

点赞数

原文链接：https://bbs.huaweicloud.com/forum/thread-58063-1-1.html

版权

转载地址：https://bbs.huaweicloud.com/forum/thread-58063-1-1.html

作者：Estein

5/30-5/31 Mindspore集训营总结

1. 概述

本期主要涉及了基于Mindspore0.3.0新版本基础上的一些开发过程，包括基于wasm后端使用rust语言开发mindspore算子，实现eBPF与Mindspore的协同从而实现ai网络训练过程的可观测性找到性能瓶颈，基于Volcano的mindspore多卡分布式训练以及针对GPU设备的mindspore框架上的lstm训练实现情感分类任务。

2. 具体

具体到这四项内容：

WASM的项目主要目的是拓展框架开发的通用性，使得能够更方便的部署到不同的设备上。WASM是一种为堆栈式进程虚拟机实现定义的二进制指令格式，理论上任何编程语言都可以支持WASM格式转换，目前支持的有C/C++、Rust（支持最好）、Golang、Python等语言。而Rust是一种安全、并发、实用的编程语言，有着惊人的运行速度，能够防止段错误，并保证线程安全,使每个人都能够构建可靠，高效的软件，有着较高的性能。实践过程主要是通过wasm和rust实现了add，mod等几种mindspore算子的前后端。
eBPF的项目主要目的是想借助eBPF实现神经网络训练过程中的性能分析，从而能够找到框架的性能瓶颈，实现对于框架的调优。eBPF起源于BPF，最早用于过滤报文，后来拓展为了eBPF将应用场景扩展到了流控，应用性能调优/监控，内核跟踪等；在实践中使用了BCC库，与mindspore结合观察了训练LeNet过程中IO延迟特性。
Volcano的项目主要是实现了mindspore的分布式通信和调度，Volcano是基于Kubernetes的批处理系统，源自于华为云AI容器，是基于华为云容器平台大规模高性能计算应用管理的最佳实践，在原生K8s的基础上，补齐了作业(Job)调度和设备管理等多方面的短板。实践上在k8s多卡GPU集群上使用Volcano跑通MindSpore，验证了分布式GPU版本的通信能力。

整个过程一方面展露了mindspore开发团队正在关注的开发计划热点，另一方面也展现了一些新版本mindspore的特性，包括基于二阶优化器的优化算法等，同时也向开发者展示了如何通过mindspore框架实现一个具体的自然语言任务。

3. 踩坑

本次训练营踩的坑主要如下：

由于使用的环境是矩池云的虚拟机，然后在做volcano是就踩坑了，矩池云上没有办法安装docker
wasm的项目，开始整个build过程都没有问题，但是观测结果是发现无法打开页面，最后发现是端口问题，租用的机器需要打开对应的端口方可
最后的lstm的例子卡在两个地方，其一是版本矩池云mindspore版本是0.2.0，没有lstm的接口，需要先将mindspore版本升级到0.3.0，其次是在数据预处理过程，gensim读取glove的词向量始终出错，其具体原因是词向量文件的格式问题

Beef_EATER

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Mindspore第二期两日集训营总结分享

转载地址：https://bbs.huaweicloud.com/forum/thread-58063-1-1.html作者：Estein5/30-5/31 Mindspore集训营总结1. 概述本期主要涉及了基于Mindspore0.3.0新版本基础上的一些开发过程，包括基于wasm后端使用rust语言开发mindspore算子，实现eBPF与Mindspore的协同从而实现ai网络训练过程的可观测性找到性能瓶颈，基于Volcano的mindspore多卡分布式训练以及针对GPU设备的mi
复制链接

扫一扫