故障案例
故障案例
hiascend
这个作者很懒,什么都没留下…
展开
-
【昇腾故障案例-边缘部署】通过Atlas 500 智能小站 WebUI升级软件失败,提示“文件上传失败”
问题信息。原创 2023-07-28 20:43:45 · 176 阅读 · 0 评论 -
【昇腾故障案例-模型推理】使用Atlas 200I DK A2进行atc模型转换出现的问题以及解决方法
使用atc转换模型的过程中会出现转换过程很慢甚至卡住不动的情况,排查问题后发现是内存跑满了。原创 2023-07-28 19:17:09 · 439 阅读 · 0 评论 -
【昇腾故障案例-模型推理】内存大小不符合DVPP的要求,导致应用程序报错并退出
拖动到“推理”区域,通过API参考进入最新版本的文档(或者可以在左上方选择需要的版本),在媒体数据处理章节,根据DVPP各功能对内存大小的要求,检查代码中对应格式的内存大小是否正确;2. 在代码中增加打印内存长度的日志,检查传入接口的内存大小是否与实际申请的内存大小一致。原创 2023-06-20 10:01:19 · 59 阅读 · 0 评论 -
【昇腾故障案例-系统工具】执行算力测试时找不到相关so文件
使用Ascend-DMI工具进行算力测试时,找不到相关so文件,回显信息如下所示。执行算力测试的报错界面。原创 2023-06-20 09:56:01 · 198 阅读 · 0 评论 -
【昇腾故障案例-模型推理】使用错误的DVPP内存申请接口,导致应用程序报错并退出
检查代码,确认在DVPP媒体数据处理的各功能中,是否使用acldvppMalloc接口/ hi_mpi_dvpp_malloc接口申请存放输入或输出数据的Device内存。根据日志提示,是因为没有使用指定的接口申请内存,导致内存地址校验出错。原创 2023-06-20 09:53:50 · 102 阅读 · 0 评论 -
【昇腾故障案例-模型推理】retCode返回值设置错误,导致视频解码异常
调用aclvdecSendFrame接口发送一帧码流后,继续复用输出图片描述信息,进行后续帧码流的解码操作,结果反复出现解码不成功、解码异常的情况。原创 2023-06-20 09:51:57 · 305 阅读 · 0 评论 -
【昇腾故障案例-安装部署】Atlas 800-3010 SUSE15 fio压测过程中进行 power cycle 操作,系统启动过程挂死
下载内核patch:kernel-default-4.12.14-150.14.2.x86_64.rpm,升级解决问题。fio性能测试非系统分区,进行 power cycle 时,SLES 15系统启动过程挂死。内核 efi 模块已知问题,4.12.14-150.14.2.x86_64 内核版本已修复。经验总结、预防措施和规范建议。关键过程、根本原因分析。结论、解决方案及效果。原创 2023-06-19 17:23:30 · 291 阅读 · 0 评论 -
【昇腾故障案例-安装部署】Atlas 800 系统执行 S4,未恢复到进入休眠前的状态
无。原创 2023-06-19 17:23:46 · 67 阅读 · 0 评论 -
【昇腾故障案例-安装部署】Atlas 800-9000 EulerOS 2.8系统,fio压测时OS发生softlockup重启
无。原创 2023-06-19 17:21:23 · 133 阅读 · 0 评论 -
【昇腾故障案例-安装部署】Ascend 310P 容器内算力切分挂起视频流编解码业务进程npu-smi故障
硬件配置:Atlas800-3000设备,Ascend 310P推理卡问题现象:Ascend 310P推理卡在算力切分1/2分容器场景下,运行单进程12路视频解码业务,在容器内运行业务过程中Ctrl+Z挂起业务后,出现npu-smi info出现查询不到芯片的现象。原创 2023-06-19 17:17:30 · 638 阅读 · 0 评论 -
【昇腾故障案例-安装部署】Atlas 800 dmesg告警“device-mapper: error adding target to table”
无。原创 2023-06-19 16:11:25 · 322 阅读 · 0 评论 -
【昇腾故障案例-安装部署】pip3 install scipy报错
安装scipy时,提示如下错误信息。错误信息。原创 2023-06-19 16:08:02 · 254 阅读 · 0 评论 -
【昇腾故障案例-安装部署】CPU架构为ARM架构时,由于社区未提供ARM架构CPU版本的torch包,无法使用PIP3命令安装PyTorch1.8.1,需要使用源码编译安装
CPU架构为ARM架构时,无法使用PIP3命令安装PyTorch1.8.1。原创 2023-06-19 16:07:24 · 236 阅读 · 0 评论 -
【昇腾故障案例-安装部署】pip3 install numpy报错
安装依赖时,使用。原创 2023-06-19 15:25:30 · 378 阅读 · 0 评论 -
【昇腾故障案例-安装部署】容器中未挂载device问题
dev/davinciX:NPU设配,X是芯片物理ID号例如davinci0。由于启动容器实例时,未挂载device参数,导致无法正常启动实例。/usr/local/bin/npu-smi:npu-smi工具。/usr/local/Ascend/driver:驱动目录。/dev/davinci_manager:管理设备。/usr/local/dcmi:DCMI目录。${镜像名称}:{tag}:镜像名称与版本号。/dev/devmm_svm:管理设备。/dev/hisi_hdc:管理设备。原创 2023-06-19 15:23:24 · 221 阅读 · 1 评论 -
【昇腾故障案例-安装部署】在CentOS或EulerOS系统中,使用yum命令出现“No module named ‘dnf‘”报错
请删除LD_LIBRARY_PATH环境变量中的Python3.9路径,使用系统的python路径。系统为CentOS或EulerOS,使用yum命令过程中出现以下错误。原创 2023-06-19 15:15:45 · 1893 阅读 · 0 评论