2014年06月_皮果提

11月 10月 08月 07月 06月 05月 04月 03月 02月 01月

原创一种并行随机梯度下降法

Martin A. Zinkevich 等人（Yahoo！Lab）合作的论文 Parallelized Stochastic Gradient Descent 中给出了一种适合于 MapReduce 的并行随机梯度下降法，并给出了相应的收敛性分析。这里忽略理论部分，根据自己的理解给出文中所提并行随机梯度下降法的描述。

2014-06-23 13:53:56 10711 2

原创 DistBelief 框架下的并行随机梯度下降法 - Downpour SGD

本文是读完 Jeffrey Dean, Greg S. Corrado 等人的文章 Large Scale Distributed Deep Networks (2012) 后的一则读书笔记，重点介绍在 Google 的软件框架 DistBelief 下设计的一种用来训练大规模深度神经网络的随机梯度下降法 — Downpour SGD，该方法通过分布式地部署多个模型副本和一个“参数服务器”，同时实现了模型并行和数据并行，且对机器失效问题具有很好的容错性。结合 Adagrad 自适应学习率使用，对非凸优化问题

2014-06-17 22:39:45 18185 5

原创一种利用 Cumulative Penalty 训练 L1 正则 Log-linear 模型的随机梯度下降法

Log-Linear 模型（也叫做最大熵模型）是 NLP 领域中使用最为广泛的模型之一，其训练常采用最大似然准则，且为防止过拟合，往往在目标函数中加入（可以产生稀疏性的） L1 正则。但对于这种带 L1 正则的最大熵模型，直接采用标准的随机梯度下降法（SGD）会出现效率不高和难以真正产生稀疏性等问题。本文为阅读论文 Stochastic Gradient Descent Training for L1-regularized Log-linear Models with Cumulative Penalty

2014-06-11 14:06:14 4773 1

原创一种适合于大数据的并行坐标下降法

在机器学习中，模型的训练是一个很重要的过程，它通常是对一个目标函数进行优化，从而获取模型的参数，比较常见的优化算法包括梯度下降法、牛顿法与拟牛顿法等。但在大数据的背景下，尤其对于并行实现来说，优化算法通常是越简单越好，如坐标下降法（CD）和随机梯度下降法（SCG）就比较受欢迎。本文是阅读完论文 Distributed Coordinate Descent Method for Learning with Big Data 的一则笔记，主要介绍算法 Hydra （一种分布式坐标下降法）的算法框架、收敛性理论、

2014-06-03 23:43:00 7068

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

peghoty

原创一种并行随机梯度下降法

原创 DistBelief 框架下的并行随机梯度下降法 - Downpour SGD

原创一种利用 Cumulative Penalty 训练 L1 正则 Log-linear 模型的随机梯度下降法

原创一种适合于大数据的并行坐标下降法

逻辑回归详谈

线性判别分析(LDA)入门

线性判别分析（LDA）浅析

空空如也

原创 一种并行随机梯度下降法

原创 DistBelief 框架下的并行随机梯度下降法 - Downpour SGD

原创 一种利用 Cumulative Penalty 训练 L1 正则 Log-linear 模型的随机梯度下降法

原创 一种适合于大数据的并行坐标下降法

逻辑回归详谈

线性判别分析(LDA)入门

线性判别分析（LDA）浅析

空空如也

原创一种并行随机梯度下降法

原创一种利用 Cumulative Penalty 训练 L1 正则 Log-linear 模型的随机梯度下降法

原创一种适合于大数据的并行坐标下降法