Erhsh-python之EMS使用指南

转载地址:https://bbs.huaweicloud.com/forum/thread-121717-1-1.html

作者:caojian05

简介

MindSpore网络组经常会有各种各样的问题需要定位,我们经常感觉比较麻烦的场景有:

  1. 这个环境本身是否有问题?简单网络能否跑通?
  2. 这个环境上如果没有我要的数据集怎么办?拷贝过来太大,能否造一份假的数据集定位?
  3. 新开发一个网络,除了写数据预处理的脚本,网络结构的定义外,我们还要关注怎么进行单P,多P的python、shell脚本的编写,写起来比较冗余,而且基本上都是复制粘贴过来的。要是能把多P逻辑抽象出来封装会不会更好?
  4. ……

erhsh-python包的ems模块就是为了解决上述问题开发的。 该模块为纯python开发的小工具:提供常用命令及编程接口,方便日常问题定位。

安装

通过Pip安装:

可以通过如下方式安装,如下三个镜像,哪个快,选哪个。

pip install erhsh-python

# -i http://pypi.org/simple --trusted-host pypi.org

# -i http://mirrors.tools.huawei.com/pypi/simple/ --trusted-host=mirrors.tools.huawei.com

# -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

EMS常用工具介绍

生成HCCL配置文件

在日常开发中,当拿到一台新的Ascend服务器,跑多卡训练,首先需提供HCCL配置文件;

该文件可以通过命令ems hcclv1自动生成。

(cjpy37) root@demo-server:/workspace# ems hcclv1

Server Id(IP) [10.10.10.10]: 8.8.8.8

Visible Devices [0,1,2,3,4,5,6,7]: 4,5,6,7

hccn_conf_file: /etc/hccn.conf

device_id:0, device_ip:192.168.1.100

device_id:1, device_ip:192.168.2.100

device_id:2, device_ip:192.168.3.100

device_id:3, device_ip:192.168.4.100

device_id:4, device_ip:192.168.1.200

device_id:5, device_ip:192.168.2.200

device_id:6, device_ip:192.168.3.200

device_id:7, device_ip:192.168.4.200

Generate success: /workspace/rank_table_4p_4-5-6-7.json

EMS编程接口介绍

打印数据集信息

场景:对喂给网络的数据长什么有个大概的认识。

功能:ems.print_ds_info()

示例:

    ...

dataset = create_dataset("D:/Data/dataset/mnist", is_train=True)

import erhsh.ms as ems

ems.print_ds_info(dataset)

    ...

输出:

------ Dataset Information Is: -----

|-get_dataset_size=1875

|-get_repeate_count=1

|-output_types=[dtype('float32'), dtype('int32')]

|-output_shapes=[[32, 1, 32, 32], [32]]

|- image -> (32, 1, 32, 32) Float32

|- label -> (32,) Int32

打印数据集内容

场景:对喂给网络的数据内容直观查看,固定数据集定位问题时常用的手段。

功能:ems.print_ds_data()

示例:

    ...

dataset = create_dataset("D:/Data/dataset/mnist", is_train=True)

import erhsh.ms as ems

ems.print_ds_data(dataset)

    ...

输出:

-------------------------------- item: 1 ------------------------------

>>> image->(32, 1, 32, 32)

[-0.00166358 -0.00166358 ... -0.00166358 -0.00166358 -0.00166358]

...

[-0.00166358 -0.00166358 ... -0.00166358 -0.00166358 -0.00166358]

>>> label->(32,)

[3 5 9 5 9 4 2 2 4 3 6 6 2 2 2 9 1 8 8 0 2 5 0 5 5 2 4 9 4 9 2 3]

-------------------------------- item: 2 ------------------------------

>>> image->(32, 1, 32, 32)

...

打印数据集性能

场景:数据集性能“自证清白”

功能:ems.print_ds_performance()

示例:

    ...

dataset = create_dataset("D:/Data/dataset/mnist", is_train=True)

import erhsh.ms as ems

ems.print_ds_performance(dataset)

    ...

输出:

Total Count: 1875, total cost: 0.828814745

|-AVG:0.000425013

|-99%:0.000999646

|-90%:0.000997543

|-75%:0.000997066

|-50%:0.0

|-Max:0.160577059

|-Min:0.0

|-Sum:0.796899023

Save numpy start...

Save numpy success~

伪造数据集

功能:ems.DatasetMocker()

示例:

    ...

# dataset = create_dataset("D:/Data/dataset/mnist", is_train=True)

import erhsh.ms as ems

dataset = ems.DatasetMocker().set_features({

        "image": lambda: np.random.rand(1, 32, 32).astype(np.float32),

        "label": lambda: np.random.randint(10, size=()).astype(np.int32)

    }).set_data_len(3 * 32).set_batch_size(32).mock()

    ...

训练接口封装

功能:ems.Trainer ()

示例:

import erhsh.ms as ems

ems.Trainer(name="simplenet") \

    .set_dataset(ems.create_mocker_dataset()) \

    .set_network(ems.SimpleNet()) \

    .set_callbacks([ems.TimeMonitor()]) \

    .run()

输出:

-------------------------------

    Param Key     | Param Value

-------------------------------

--device_target   | CPU       

--graph_mode      | False     

--save_graphs     | False     

--visible_devices | None      

--do_eval         | False     

--ckpt_path       | ./ckpt    

--epoch_size      | 1         

--do_sink         | True      

--sink_size       | -1        

--data_path       | ./data    

--batch_size      | 32        

-------------------------------

>>>>>>>>>>>>>>>>>>>>> train start ... <<<<<<<<<<<<<<<<<<<<<<

epoch: 1 step: 1, loss is 0.6031854

epoch: 1 step: 2, loss is 0.6027737

epoch: 1 step: 3, loss is 0.59904116

Epoch[ 1/ 1], Step[ 3], epoch time: 15.706ms, per step time: 5.235ms

>>>>>>>>>>>>>>>>>>>>> train success ~ <<<<<<<<<<<<<<<<<<<<<<

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值