sxx01-CSDN博客

原创 Sparsified SGD with Memory 论文阅读

1 Introduction随机梯度下降算法(SGD)的迭代过程为:其中gt\mathbf{g}_tgt是对于梯度的无偏估计,即E[gt]=∇f(xt)\mathbb{E}[\mathbf{g}_t]=\nabla f(\mathbf{x}_t)E[gt]=∇f(xt).SGD算法可以加快计算的过程,但无法加快通信过程.在分布式机器学习环境中,通信问题是限制其发展的关键因素.为了解决这个问题,可以对求解出来的梯度进行压缩操作,使用comp(g)comp(\mathbf{g})comp(g)来代

2020-06-27 16:35:19 1333

原创 A Convergence Analysis of Distributed SGD with Communication-Efficient Gradient Sparsification 论文阅读

1 Introduction随机梯度下降的更新流程为其中x∈Rnx\in \mathbb{R}^nx∈Rn为模型参数,我们可以给定包含PPP个工作节点的集群来加快训练的过程,其中第ppp个节点计算得到的更新为Gp(xt)G^p(x_t)Gp(xt),更新过程修改为这种同步的随机梯度下降算法称为S-SGD.理想情况下训练的速度可以加快了P倍,但由于受到通信条件的限制,并不能实现这么高的速度,因此提出了梯度稀疏化来加快通信过程,更新过程修改为考虑到不同节点的非零元素坐标可能是不一样的,因此在

2020-06-26 19:25:28 460

原创 Robust and Communication-Efficient Federated Learning From Non-i.i.d. Data 论文阅读笔记

1 Introduction联邦学习的训练过程包括设备下载模型，本地训练模型，将训练得到的模型更新或者模型发送到服务端进行聚合.传输数据的比特数为2 Challenge在介绍压缩传输数据量的方法前,我们首先介绍会在联邦学习压缩传输数据方面的挑战.数据分布之间的不平衡和non-iid数量极大的客户端参数服务器进行聚合部分客户端参与电力和存储受限因此,用于联邦学习的通信压缩算法需要满足以下要求:R1:同时压缩上传和下载数据量R2:可适用于不平衡\non-iid的数据分布R3:可适用于

2020-06-25 21:54:20 3173 2

原创 TernGrad: Ternary Gradients to Reduce Communication in Distributed Deep Learning 论文阅读

问题描述及算法考虑下图所示的分布式机器学习架构.我们用ttt表示迭代训练的次数,NNN代表节点的数量,工作节点iii计算得到的梯度向量为gt(i)\mathbf{g}^{(i)}_tgt(i),输入的样本为zt(i)\mathbf{z}^{(i)}_tzt(i).为了能够进一步实现压缩,在训练过程中中央服务器并不保存模型,每个工作节点都保存一个模型副本,计算得到梯度后由中央服务器进行聚合,将得到的梯度也进行量化后发送到每个工作节点,由工作节点本地进行模型更新.工作节点在进行梯度上传的时候对梯度

2020-06-24 10:58:35 861

原创 CS229第五课——支持向量机

CS229第五课支持向量机1 间隔支持向量机1 间隔首先考虑逻辑回归模型hθ(x)=11+exp(−θTx)h_{\theta}(x)=\frac{1}{1+exp(-\theta^Tx)}hθ(x)=1+exp(−θTx)1，当hθ(x)≥0.5h_{\theta}(x)\ge0.5hθ(x)≥0.5时我们预测的标签为1，...

2020-06-05 22:33:21 261

原创 CS229第四课——生成学习算法

CS229第四课生成学习算法1 高斯判别分析1.1 多元高斯分布1.2 高斯判别分析模型1.3 讨论：GDA与逻辑回归2 朴素贝叶斯生成学习算法目前我们讨论的算法都是在给定xxx的情况下求解yyy的分布情况，即p(y∣x;θ)p(y|x;\theta)p(y∣x;θ)，例如逻辑回归算法，接下来我们会讨论一种不同类型的算法。我们首先讨论二分类问题，对于给定的数据集，逻辑回归算法或感知器算法会寻找一条直线来对这些数据进行划分。而对于另一种算法，我们会先针对y=0y=0y=0的类别进行建模，然后再针对y=1

2020-06-04 13:21:03 188

原创 Gradient Sparsification for Communication-Efficient Distributed Optimization 阅读笔记

文章目录摘要1 Introduction2 Algorithm2.1 数学模化2.2 稀疏化算法2.3 编码策略3 稀疏性的理论保证4 总结摘要现代大规模机器学习应用程序要求在分布式计算体系结构上实现随机优化算法，一个关键瓶颈是在不同worker之间交换信息（例如随机梯度）的通信开销。在本文中，为了降低通信成本，我们提出了一种凸优化公式，以最小化随机梯度的编码长度。关键思想是随机删除随机梯度向量的坐标，并适当地放大其余的坐标，以确保稀疏的梯度无偏。为了有效地解决最优稀疏性问题，提出了一种简单快速的近

2020-06-03 22:25:34 798

原创 CS229第三课——广义线性模型

CS229第三课广义线性模型1 指数族2 构造GLM2.1 普通最小二乘法2.2逻辑回归2.3 Softmax回归广义线性模型我们已经学习了线性回归和逻辑回归模型，在这两种模型中，我们分别假设线性模型y∣x;θ∼N(μ,σ2)y|x;\theta \sim \mathcal{N}(\mu, \sigma^2)y∣x;θ∼N(μ,σ2)和逻辑回归模型y∣x;θ∼Bernoulli(ϕ)y|x;\theta \sim Bernoulli(\phi)y∣x;θ∼Bernoulli(ϕ)，其中将参数μ\muμ和

2020-06-02 13:16:56 220

原创 CS229第二课——分类与逻辑回归

CS229第二课分类与逻辑回归1 逻辑回归2 感知器算法3 另一种最大化l(θ)的算法l(\theta)的算法l(θ)的算法分类与逻辑回归与回归问题相似，但标签数据yyy不是连续值，而是离散值，我们首先考虑二分类问题，其中的标签数据yyy的值为0或1。1 逻辑回归对于逻辑回归，因为标签数据y∈{0,1}y \in \{0,1\}y∈{0,1}，因此对于我们预测的输出值应该位于0到1之间，如果我们直接使用之前的线性方程，无法构建一个良好的模型。为了解决这个问题，我们选择的模型为hθ(x)=g(θ

2020-05-30 12:09:49 282

原创 CS229第一课——线性回归

这里写自定义目录标题监督学习新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入监督学习假设我们有47个房子的居住面积和售卖价格，如下所示。给定这样的数据信息，我们需要如何来预测房子的价格？为了方便后续的描述，我们定义

2020-05-29 12:54:34 423

原创拓展欧几里得算法

青蛙的约会Time Limit: 1000MS Memory Limit: 10000KTotal Submissions: 125256 Accepted: 26862Description两只青蛙在网上相识了，它们聊得很开心，于是觉得很有必要见一面。它们很高兴地发现它们住在同一条纬度线上，于是它们约定各自朝西跳，直到碰面为止。可是它们出发之前忘记了一件很重要的事情，既没有问清楚对方的特征，也没...

2018-05-12 11:26:57 114

sxx01的博客