分布式
文章平均质量分 72
分布式实战学习全记录
别出BUG求求了
这个作者很懒,什么都没留下…
展开
-
Python 中的 queue 模块队列详解;队列如何使用——如何处理信息在多个线程间安全交换的多线程程序?
queue 模块定义了以下四种不同类型的队列,它们之间的区别在于数据入队列之后出队列的顺序不同。本节给大家介绍了 Python 的 queue 模块,为 Python 工程师对该模块的使用提供了支撑,让大家对 queue 模块的相关概念和使用有一个初步的了解。原创 2023-12-09 18:55:09 · 1552 阅读 · 0 评论 -
分布式机器学习、联邦学习、多智能体的区别和联系——一文进行详细解释
分布式机器学习(distributed machine learning),是指利用多个计算/任务节点(Worker)协同训练一个全局的机器学习/深度学习模型(由主节点(Master)调度)。需要注意的是,分布式机器学习和传统的HPC领域不太一样。传统的HPC领域主要是计算密集型,以提高加速比为主要目标。而分布式机器学习还兼具数据密集型特性,会面临训练数据大(单机存不下)、模型规模大的问题。此外,在分布式机器学习也需要更多地关注通信问题。原创 2023-11-28 11:21:54 · 2441 阅读 · 1 评论 -
tensorflow 1.15 gpu docker环境搭建;Nvidia Docker容器基于TensorFlow1.15测试GPU;——全流程应用指南
TensorFlow 在新款 NVIDIA Pascal GPU 上的运行速度可提升高达 50%,并且能够顺利跨 GPU 进行扩展。如今,训练模型的时间可以从几天缩短到几小时TensorFlow 使用优化的 C++ 和 NVIDIA® CUDA® 工具包编写,使模型能够在训练和推理时在 GPU 上运行,从而大幅提速TensorFlow GPU 支持需要多个驱动和库。为简化安装并避免库冲突,建议利用 GPU 支持的 TensorFlow Docker 镜像。原创 2023-11-14 19:49:55 · 2082 阅读 · 0 评论 -
【分布式】tensorflow 1 分布式代码实战与说明;单个节点上运行 2 个分布式worker工作线程
两个server工作是ps,两个sever的工作是worker,这个name其实没有在代码中配置,所以不用理会。server同做一个工作,也需要区分的,所以又引入了task,并且有task id。眼熟ps与worker,因为这个是工作,每个server,都得干活,所以只能是从这两个工作里面选择。ps的工作类似于存储参数,而损失的计算,梯度的决定都是有worker进行的。所以做一下程序入口接受参数(节点都是是谁,给什么工作了),我比较喜欢接收参数,不喜欢在代码里面写死。就是输入三次,跑三次,同时。原创 2023-11-11 18:07:21 · 327 阅读 · 0 评论 -
在tensorflow分布式训练过程中突然终止(终止)
这是为那些将从服务器接收渐变的员工提供的培训功能,在计算权重和偏差后,将更新的渐变发送到服务器。但是当我运行这段代码时,工作进程在运行了一些步骤之后神秘地终止(这意味着内存不足的原因导致!原创 2023-08-05 15:49:23 · 1587 阅读 · 0 评论 -
tensorflow1.13分布式训练 参考资料 -教程原理
对于数据量较大的时候,通过分布式训练可以加速训练。相比于单机单卡、单机多卡只需要用with tf.device(‘/gpu:0’)来指定GPU进行计算的情况,分布式训练因为涉及到多台机器之间的分工交互,所以更麻烦一些。本文简单介绍了多机(单卡/多卡不重要)情况下的分布式Tensorflow训练方法。对于分布式训练与单机训练主要有两个不同。原创 2023-08-01 18:55:08 · 277 阅读 · 0 评论 -
tensorflow分布式报错:tensorflow.python.framework.errors_impl.UnknownError: Could not start gRPC server
在学习tensorflow分布式的过程中遇到一些错误,多方查找之后终于解决,在此记录,希望能帮助其他遇到该问题的人解决问题。原创 2023-08-01 16:57:13 · 254 阅读 · 0 评论 -
【分布式】深度学习中分布式训练的现状及未来
深度学习分布式训练任务,就是由多个进程一起协作完成某个模型的训练,这些进程可以运行在单个机器上,也可以运行在多个机器上;可以运行在 CPU Device(设备)上,也可以运行在 GPU、NPU(华为昇腾)、XPU(百度昆仑) Device 上;可以运行在 Host(物理机) 上,也可以运行在 Container(容器)、VM(虚拟机)上。那么,相比于单体训练,分布式训练能带来哪些好处呢?分布式进程是如何启动的呢?这些进程之间需要交互吗?如何给每个进程分配训练任务?本文将带你来一起寻找这些问题的答案。原创 2022-09-13 16:40:13 · 1290 阅读 · 3 评论 -
【分布式】在树莓派集群中部署k3s+node_exporter+Prometheus+Grafana进行集群的监测和感知
本项目中使用Prometheus监控各项系统或业务的运行状态和健康情况。其中主要用到exporter插件,Exporter的作用就是将监控数据采集的端点通过HTTP服务的形式暴露给Prometheus Server,然后Prometheus Server通过访问该Exporter提供的Endpoint端点,即可获取到需要采集的监控数据,也可以理解exporter就是部署在客户端的一个Agent。exporter官方插件有很多个,如node_exporte,、mysql_exporter以及我们之前所介绍过原创 2022-07-13 13:59:24 · 1954 阅读 · 0 评论 -
【分布式】解决树莓派4B-64位更换清华源问题(GPG error:because the public key is not available)
一、首先是安装清华源,按照网上的教程来在官网安装(base 树莓派):首先确定系统版本:more /etc/debian_version然后根据系统版本来跑上面给的指令:# armv7l 用户:编辑 `/etc/apt/sources.list` 文件,删除原文件所有内容,用以下内容取代deb http://mirrors.tuna.tsinghua.edu.cn/raspbian/raspbian/ buster main non-free contrib rpi# deb-src原创 2022-04-30 16:15:38 · 3819 阅读 · 1 评论 -
【分布式】在树莓派上部署Docker - 亲测可用 - 排坑指南;解决自动化脚本不能安装的问题;适用于普通的Linux
一、卸载旧版本sudo apt-get remove docker docker-engine docker.io containerd runcsudo apt-get purge docker-ce docker-ce-cli containerd.iosudo rm -rf /var/lib/dockersudo rm -rf /var/lib/containerdhint:apt-get报告这些包都没安装,这没有关系/var/lib/docker/包括图像、容器、卷和网络,都被保留原创 2022-04-25 14:07:34 · 2134 阅读 · 0 评论 -
psutil cpu_percent如何使用;python如何测试cpu的使用率
psutil获取系统cpu使用率的方法是cpu_percent(),其有两个参数,分别是interval和percpu,interval指定的是计算cpu使用率的时间间隔,percpu则指定是选择总的使用率还是每个cpu的使用率。一、如何使用?psutil.cpu_percent(interval=None, percpu=False)返回一个浮点数,以百分比的形式表示当前系统范围的CPU利用率。当间隔>0.0时,比较间隔前后经过的系统CPU时间(阻塞)。当interval为0.0或None时原创 2022-04-20 22:49:26 · 4815 阅读 · 0 评论 -
【分布式】系统读取Jetson nano的功耗;NVIDIA 设备读取功耗;功耗测试
NVIDIA有完善的性能管理的工具jtop。而监控功耗的最简单方法是使用 jtop。要安装它,请运行以下命令:sudo -H pip install -U jetson-stats直接输入bash指令jtop即可调用其资源的图像界面:或者,如果您正在寻找系统文件以直接获取功耗,请运行:sudo cat /sys/bus/i2c/drivers/ina3221x/6-0040/iio:device0/in_power?_input如果使用问号运行此命令,您将获得三个值:总功耗 mW ( in_原创 2022-04-17 18:11:16 · 2100 阅读 · 3 评论 -
功率和能量换算公式、如何换算,W和J如何转换,power和energy转换
可知Power = 1 w = 1 j/s所以一秒内产生的能量为Energy = 1 j————————————————————————————————————————————————————————————————————————————e.g.同理,一度电产生多少能量?1 kwh = 1度 = 3600000 j1 kwh = 1kw * 1h = 1000w * 1h = 1000w * 3600s = 3600000 j因为kW·h(简称度)就是一个能量度量单位,表示一原创 2022-01-08 14:05:25 · 15565 阅读 · 0 评论 -
arm 嵌入式设备(树莓派/jetsonnano/TX2)如何安装中文输入法?
一、安装fcitx-googlepinyinsudo apt-get install fcitx fcitx-googlepinyin -y二、设置 Language Support“语言支持-从语言支持里面选择fcitx三:重启、配置fcitx重新启动以后,在屏幕右上方有了小键盘,左键单击它,弹出菜单,选择 Configure Current Input Method如果是PC,选择configureFcitx添加谷歌输入法去“显示当前语言”的选项,搜索框搜索Goo,选中goo原创 2022-01-05 17:42:49 · 2168 阅读 · 0 评论 -
Nvidia Jetson Agx Xavier遇坑,刷机记录、教程
准备一台装有ubuntu系统的笔记本做主机host(注意:ubuntu20.04目前不能用,因为JetPack4.4目前不支持20.04版本,支持ubuntu16和18的版本;虚拟机装ubuntu也可以,但不推荐,性能有影响)显示器(注意:分辨率高些,大于1440*900即可,可以选用1080p以上的;最好不要使用转接头)网线,原装type-c线。host要在有网环境且能连网,WiFi,热点,宽带皆可。一、刷机1. 下载安装SDK Manager用主机打开Nvidia官网,原创 2021-12-09 11:51:48 · 3247 阅读 · 1 评论 -
【分布式】NVIDIA jetson nano/ Linux/ Ubuntu18.0.4 配置固定IP静态IP永久IP
1. check一下自己当前网络ifconfig分别是ip、子网掩码2. 创建eth0文件cd /etc/network/interfaces.dsudo vi eth0在文件中加入如下内容:auto eth0iface eth0 inet staticaddress 192.168.0.158netmask 255.255.255.0gateway 192.168.0.1设置:自己设定的ip地址子网掩码网关——默认为上述3. 修改/etc/network目录下的in原创 2021-11-24 12:45:41 · 3020 阅读 · 0 评论 -
Jetson Nano B01安装jetpack4.3系统+tensorflow1.13.1-GPU版本(最全指南-避坑必备)
一、系统安装排坑官网自带的最新的系统:最新的系统有点坑,带的cuda10.2,和其他帖子所说的cuda10.0都不一样,所以你要用旧版本tensorflow的话,就要注意。二、cuda写入环境变量sudo vim ~/.bashrc最后添加:export CUBA_HOME=/usr/local/cuda-10.0export LD_LIBRARY_PATH=/usr/local/cuda-10.0/lib64:$LD_LIBRARY_PATHexport PATH=/usr/loca原创 2021-11-21 16:16:21 · 1782 阅读 · 0 评论 -
【分布式】树莓派搭建python 3.7.3 + tensorflow 1.14.0
!!!保姆式安装教程,绝对可用---------------------首先安装python3.7.3---------------------------0.更新软件源列表,同时检查编辑是否正确。再更新软件sudo apt-get updatesudo apt-get upgrade一、安装依赖包sudo apt-get install -y make build-essential libssl-dev zlib1g-dev sudo apt-get install -y libbz原创 2021-11-15 21:19:48 · 2170 阅读 · 2 评论 -
【分布式】分布式深度学习DDLs系统Review——分布式学习通俗理解Distributed Deep Learning Systems(最全面的论述)
分布式深度学习系统 (DDLS) 通过利用集群的分布式资源来训练深度神经网络模型。 DDLS 的开发人员需要做出许多决定,以在他们选择的环境中有效地处理他们的特定工作负载。 基于 GPU 的深度学习的出现、不断增加的数据集和深度神经网络模型,再加上集群环境中存在的带宽限制,要求 DDLS 的开发人员进行创新,以便快速训练高质量模型。 本blog概述了当代 DDLS 使用的不同技术,具体内涵请回读论文阐述。一、什么是分布式深度学习/DDL?深度学习在各个领域实现突破的一部分原因是我们使用了更多的数据.原创 2021-10-14 15:56:19 · 2726 阅读 · 1 评论 -
tar: Error opening archive: Failed to open ‘/Users/xxx/Library/Caches/Homebrew/downloads/348a16e
安装brew install graphviz的时候,出现了问题:tar: Error opening archive: Failed to open ‘/Users/xxx/Library/Caches/Homebrew/downloads/348a16e5fedb24cb14fe4fd5c72caa96074c7b4e21ce4d2f7a89eb4b638c830f–gd-2.3.2.arm64_big_sur.bottle.tar.gz’Error: Failure while executing原创 2021-09-27 14:50:52 · 9367 阅读 · 8 评论 -
iperf简单测试带宽
终端下执行指令:服务器:iperf –s客户端:iperf -c xxx.xxx.xxx.xxx -t 20 -i 5mention:测试长度可以通过指定时间参数(-t seconds)或缓冲参数(-n buffers)控制。而且,你还可以在指定时间间隔(-i seconds)中看到测试的结果above的命令是你可以用来测量通过某个计算机回环地址(127.0.0.1)吞吐量...原创 2021-09-08 16:33:01 · 1017 阅读 · 0 评论