![](https://img-blog.csdnimg.cn/20190927151117521.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
分布式机器学习
文章平均质量分 72
分布式机器学习
strawcherry_wj
这个作者很懒,什么都没留下…
展开
-
【分布式训练】基于docker容器的pytorch多机分布式训练
Deep Learning:PyTorch 基于docker 容器的分布式训练实践基于Docker的大规模人脸数据集分布式训练原创 2022-03-10 21:46:31 · 1385 阅读 · 0 评论 -
【Pytorch分布式训练】MistGPU服务器训练
MistGPU地址PyCharm连接MistGPU教程ifconfig命令查看ip地址报错:zsh: command not found: ifconfig原因:在服务器上第一次使用该命令需要先安装net-tools解决办法:sudo apt install net-toolssudo apt install net-tools安装网络包报错报错:unable to locate package net-tools解决办法:sudo apt-get update...原创 2022-03-07 10:20:52 · 1633 阅读 · 0 评论 -
【Pytorch分布式训练】在MNIST数据集上训练一个简单CNN网络,将其改成分布式训练
通过一个MNIST实例来讲解,将其改成分布式训练。普通单卡训练-GPUimport osfrom datetime import datetimeimport argparseimport torch.multiprocessing as mpimport torchvisionimport torchvision.transforms as transformsimport torchimport torch.nn as nnimport torch.distributed as di原创 2022-03-06 19:55:43 · 1597 阅读 · 0 评论 -
【大论文】文献阅读——学术期刊
1.基于分布式卷积神经网络的车型识别算法研究_董伊明2019_河南科技异步框架(+分组技术)+SGD算法,降低梯度延迟改进Dis-CNN将前向传播损失函数计算的误差值与自定义阈值b进行对比,根据阈值b划分小组。小于b说明识别精度高,分配权重0.55,否则权重为0.45。以小组为单位合并slave端的通信数据。2.一种改进的分布式同步梯度下降法_李梁2021_重庆理工大学学报同步框架+SGD算法+修改数据分配机制,解决节点互相等待问题,提高训练速度举例:一个size为500的batch,2个性能差原创 2021-12-01 17:51:45 · 700 阅读 · 0 评论 -
【大论文】可扩展机器学习的并行与分布式优化算法综述_亢良伊2017
基础知识:1.目标函数机器学习要优化的目标函数一般表现为一下形式:函数J(θ)为目标函数,f为表示真实值与拟合值之差的损失函数,r(θ)为正则项(防止过拟合问题,主要分为L1正则项、L2正则项)。各种优化算法通过不同的方式求解该方程以得到使J(θ)最优的参数θ2.优化算法5类最常见的优化算法:梯度下降算法(GD):可微凸函数二阶优化算法(Second-order):可微凸函数邻近梯度算法(PG):可微凸函数与不可微凸函数的和问题坐标下降算法(CD):不可求导凸函数问题交替方向乘子算原创 2021-11-23 16:15:16 · 1617 阅读 · 0 评论 -
【大论文】文献阅读——学位论文
1.面向大规模机器学习的分布式优化算法研究_梁先锋2021现有的分布式优化算法主要分为两类研究方向:①降低单次迭代的通信成本。(ex.基于梯度压缩和带有误差补偿的随机优化算法,弊端:无法应用于当前最先进的RingAllreduce通信框架)②降低训练过程中的通信频率。(ex.Local SGD,优点:不要求对传输量进行压缩操作,因而能适用于RingAllreduce框架;弊端:当机器间数据分布不一致,基于目前周期性的模型平均算法,收敛性会显著衰减)第三章VRL-SGD——从降低通信频率角度,原创 2021-11-23 14:05:22 · 734 阅读 · 0 评论 -
【分布式机器学习】spark环境在线运行平台Databricks
登录页面https://community.cloud.databricks.com/?o=588140745259459#,需要注册并申请免费试用是一个类似jupyter notebook的平台点击create→Notebook→输入project的名称,选择语言→创建成功下面就可以在spark环境中编写自己的project了点击workspace可以看到目前已创建的projects简直是神器啊xdm!!!...原创 2021-09-13 11:23:12 · 3525 阅读 · 3 评论 -
【分布式机器学习】基本知识
从今天开始正式入门【分布式机器学习】啦~~~由于研一的科研项目中我的课题是一、梯级水电站海量多源异构数据高效存储方法二、提出梯级水电站时空大数据的并行处理框架所以我就一直跟并行处理框架过不去,各种资料搜关键词也是搜“并行处理”,没有想到分布式这一层。经过一段时间的研究之后发现【分布式机器学习】这个领域的研究成果还是挺多的,所以打算正式入门。一、书籍推荐1、《分布式机器学习——算法、理论与实践》 作者:刘铁岩 陈薇 王太峰 高飞本书对分布式机器学习这一领域进行了全面而深入的介原创 2021-09-11 14:10:38 · 1308 阅读 · 0 评论 -
【神经网络并行训练(下)】mrjob的多种使用方法
经过上个星期的摸索,发现了mrjob这个神器,网络上搜出来的教程都是最传统的一个map+一个reduce的Wordcount例子,具体实现参考【神经网络并行训练(上)】。但是要实现梯度下降算法的并行化远不止这么简单,所以决定好好研究一下如何用其实现梯度下降算法并行化。思考一:mrjob任务接受的参数只能是一个文件吗?答案:No,mrjob任务可以接受一个或多个文件,甚至一个文件夹,在执行命令后面加n个文件就会处理n个文件。example.mrjob任务接受多个文件代码如下:#!/usr/bin/原创 2021-09-05 22:37:09 · 632 阅读 · 0 评论 -
【神经网络并行训练(上)】基于MapReduce的并行算法的实现
最近看了一些基于MapReduce的神经网络并行训练方面的论文,老师让我自己去实现一下,更深入的体会其中的原理。MapReduce是基于java语言的框架,于是一开始想用java写深度学习代码。但是dl4j框架实在太难用了,而且网络上的深度学习教程都是基于python的,所以最终还是决定用python去实现基于MapReduce框架的神经网络。如果行不通的话,后面再考虑用java实现神经网络。目前大致的学习步骤如下:1、Python实现最简单的MapReduce例子,如Wordcount2、MapR原创 2021-08-30 21:06:57 · 2251 阅读 · 1 评论