![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
linux
文章平均质量分 72
canmoumou
CS咸鱼,IT手残,AI专业打杂,游戏遗老
展开
-
【分布式通信】NPKit,NCCL的Profiling工具
以NCCL为例,如何使用?原创 2024-04-25 14:58:30 · 783 阅读 · 0 评论 -
MPIRUN 31280 segmentation fault (core dumped)
mpich和openmpi的文件可能不太一样,stackoverflow上面给出的内容有时候和nccl无关。用mpirun运行多节点nccl时有时候出现hang死,而且是指定了mpi_host的情况。nccl正常,各节点通信正常,但是一跑mpirun就卡死,core dump。不再指定mpi_host.原创 2024-03-20 19:32:56 · 241 阅读 · 0 评论 -
【分布式】小白看Ring算法 - 03
NCCL(NVIDIA Collective Communications Library)是由NVIDIA开发的一种用于多GPU间通信的库。NCCL的RING算法是NCCL库中的一种通信算法,用于在多个GPU之间进行环形通信。RING算法的基本思想是将多个GPU连接成一个环形结构,每个GPU与相邻的两个GPU进行通信。数据沿着环形结构传递,直到到达发送方的位置。这样的环形结构可以有效地利用GPU之间的带宽,提高通信的效率。RING算法的步骤如下:fill:#333;color:#333;原创 2023-11-23 20:46:20 · 2653 阅读 · 1 评论 -
【分布式】大模型分布式训练入门与实践 - 04
数据并行DDP\模型并行\Pipeline并行可以看到,G-pipe将1个mini-batch切分成多个micro-batch(上图是8),前向时每个micro-batch从device1流向device4,DDP就是这么做的。原创 2023-10-23 14:30:47 · 1963 阅读 · 0 评论 -
【分布式】入门级NCCL多机并行实践 - 02
大模型和分布式训练对数据的吞吐量以及并行度都有很高的要求,NCCL就是在这个背景下诞生的。如果你是一个只会写写Python,调用PyTorch和Horovod的算法萌新,可能对于分布式底层的东西不太了解,在下岗热潮中被主管逼着转变成算子或者通讯库的搬砖工,就会像我一样两眼蒙蔽。因此本文只对自己踩到的坑做一个整理,如果有说错的地方,那就是我说错了。以PyTorch为例,其中spmd接口下的相关定义是用于处理分布式的。但主要是处理单机多CPU情况,因此我们今天只考虑多机(多节点)情况。其中用于实现多节点分布式的原创 2023-10-20 17:53:03 · 5159 阅读 · 2 评论 -
自编译的pytorch出现OSError: libmkl_intel_lp64.so.1: cannot open shared object file: No such file or direct
自编译的pytorch出现OSError: libmkl_intel_lp64.so.1: cannot open shared object file: No such file or direct我用安装了mkl以后还是出错。因此查找一下so的位置发现在我的conda内部已经有了, 所以直接链接过去.这个问题常见于使用conda新环境去编译pytorch.原创 2022-12-05 12:09:11 · 697 阅读 · 0 评论 -
分布式学习 - MPICH编译与实践
MPICH是MPI (消息传递接口规范)的实践方法之一, 本文包含编译和如何解决遇到的一些问题原创 2022-12-05 12:05:02 · 983 阅读 · 2 评论 -
【读书笔记】 如何进行Python性能分析
python性能分析工具简介与案例。原创 2022-05-05 16:16:52 · 1011 阅读 · 2 评论 -
【读书笔记】 - 《流畅的python》03-字典和集合
字典和集合字典dict类型是python语言的基石,散列表是字典性能出众的根本原因散列表(Hash table,也叫哈希表),是根据关键码值(Key value)而直接进行访问的数据结构。它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。这个映射函数叫做散列函数,存放记录的数组叫做散列表。给定表M,存在函数f(key),对任意给定的关键字值key,代入函数后若能得到包含该关键字的记录在表中的地址,则称表M为哈希(Hash)表,函数f(key)为哈希(Hash) 函数。泛映射类型c原创 2022-05-05 09:43:31 · 150 阅读 · 1 评论 -
【其他笔记】 “unable to start ssh-agent service, error :1058“
ssh-agent启动失败问题原创 2022-03-09 19:51:07 · 2671 阅读 · 1 评论 -
其他笔记 - Shell脚本相关(Linux)
最常见的shell脚本Bash(Bourne Again Shell)是sh(Bourne Shell)的增强版,shell是用于让用户与操作系统kernel沟通的一个界面软件。查看系统上可用的shell程序:cat shells命令用法示例history查询历史alias查询命令别名,设置命令别名alias *name*type查询命令是否为bash的内置命令type [-tpa] *name*echo打印变量echo $varuns原创 2021-12-29 14:37:40 · 566 阅读 · 0 评论 -
其他笔记 - 如何利用superset部署一个可视化的数据平台 [ docker配置与测试记录 ]
superset配置与测试记录安装系统环境docker环境三级目录测试安装系统环境cat /etc/issueUbuntu 18.04.5 LTS \n \ldocker环境docker search superset选择docker pull amancevice/supersetdocker image ls可查看已下载的所有镜像。三级目录测试...原创 2021-08-17 16:49:44 · 1218 阅读 · 0 评论 -
配置ssh下载git仓库的问题
报错Permission denied (publickey). fatal: Could not read from remoterepository.前提:已经配置好了ssh,配置方法是利用ssh-gen来生成密钥,再把公钥(也就是pub)文件粘贴到git仓库设置的ssh配置中。生成密钥方法:ssh-keygen -t rsa -C "email@example.com"解决:$ ssh-add -lCould not open a connection to your auth原创 2021-07-13 12:25:54 · 535 阅读 · 2 评论 -
其他笔记 - Linux和Windows查看MAC地址,设备序列号,硬盘序列号等
目录Linux:硬盘序列号:设备序列号:mac地址:Windows:硬盘序列号:设备序列号:mac地址:Linux:硬盘序列号:形式如DE97A84D-FAA8-495C-95B1-5F3BF039ABEC由于机器不同,磁盘可能被识别为sda,nvme0,等等,根据不同设备符号查询sudo fdisk -l /dev/nvme0n1sudo fdisk -l /dev/sda设备序列号:形式如M70F9M6Wdmidecode -s system-serial-numbermac地址:原创 2021-03-03 10:35:21 · 936 阅读 · 0 评论 -
ROS-学习笔记-06- Docker安装ROS、ROS VNC & Docker常用命令
使用Docker安装ros可以避免需要同时开多个虚拟机模拟不同版本ros和不同版本机器人的情况。目录安装DockerDAOCloud一键安装其他安装方法注意要卸载旧docker用户设置问题拉取ROS镜像1. Xserver 显示2. 打包好的VNC镜像其他版本ros-docker镜像vnc-rosdocker-ubuntu-vnc-desktopnvidia-ros-vnc参考安装DockerDAOCloud一键安装首先在新装的Ubuntu18虚拟机环境下一键安装Docker:curl -sSL原创 2020-12-25 10:19:52 · 2587 阅读 · 0 评论 -
其他笔记 - Windows编译ignition和graphviz等库(Gazebo的依赖)
Windows编译ignition和graphviz等Gazebo依赖Windows编译ignition1、环境和依赖2、VS2017配置:3、开始Build Ignition库Ignition-cmakeIgnition MathIgnition commonIgnition Fuel toolsIgnition MsgsIgnition TransportWindows编译graphviz1、配置依赖Windows编译ignition1、环境和依赖安装CMAKE,并确保安装时勾选了"Add CM原创 2020-12-23 10:18:45 · 962 阅读 · 1 评论 -
其他笔记 - gazebo编译运行出错记录
编译gazebo运行出错记录#### 1、libgazebo_common.so.11gazebo: error while loading shared libraries: libgazebo_common.so.11: cannot open shared object file: No such file or directory看到这个错误有人会让你下载对应版本libgazebo11-dev,然而编译最新版就没办法这样解决。如果你编译的是旧版,可以apt-get install.解决办原创 2020-10-19 17:00:31 · 1836 阅读 · 0 评论 -
其他笔记 - virtualbox共享文件夹无访问权限等问题
1、大部分情况解决方案:sudo usermod -a -G vboxsf usernanme2、其他情况粘贴有用,但是无法访问共享文件夹,且启动时会有报错条目,界面无法自适应,永远是固定大小,你可能会看到以下报错信息。例如:VBoxClient: Failed to get display change request, rc=VERR_IO_BAD_LENGTH或是一闪而过的:“Failed to start Load Kernel Modules”经过检查 systemctl -原创 2020-10-19 13:46:59 · 3776 阅读 · 0 评论 -
其他笔记 - 编译Gazebo依赖以及源码过程 - Ubuntu 18.04,gazebo11
目录1、环境配置2、下载依赖可选的物理依赖其他可选依赖:OSRF维护的依赖SDFormat的依赖SDFormat的编译安装3、开始编译1、环境配置Ubuntu18.04Ros MelodicCmake 3.10.2首先卸载之前编译或者安装好的库sudo apt-get remove '.*gazebo.*' '.*sdformat.*' '.*ignition-math.*' '.*ignition-msgs.*' '.*ignition-transport.*'apt下载原创 2020-10-16 15:26:47 · 2508 阅读 · 2 评论 -
Windows设置SSH出错,Permission denied (publickey),Error connecting to agent
最近在设置nginx配置,由于云服务器是密钥登陆的,所以有一些问题。前置环境:安装Chocolatey以管理员权限打开PowerShell运行Set-ExecutionPolicy AllSigned输入 y 然后回车Set-ExecutionPolicy Bypass -Scope Process -Force; iex ((New-Object System.Net.WebClient).DownloadString('[https://chocolatey.org/install.ps1](原创 2020-10-14 11:25:35 · 11897 阅读 · 1 评论