李沐 Parameter Server 总结

<style>
blockquote { padding-left: 2px; padding-top: 2px; padding-right: 2px; padding-bottom: 2px; border-left: 4px solid #ff7f0f; border-right: 4px solid #ff7f0f; border-top: 4px solid #ff7f0f; border-bottom: 4px solid #ff7f0f; background-color: #eeeeee; }
table, th, td { border: 2px solid black; border-collapse: collapse; }
.katex { font-size: 1.0em; text-indent: 0; text-rendering: auto; }
</style>

Scaling Distributed Machine Learning with the Parameter Server

[李沐本人讲解](https://www.bilibili.com/video/BV1YA4y197G8)

  • 系统方向 (内核, 数据抽象, 安全, 网络, debug, 分布事务, 机器学习, 工具)
  • 困难之处
    • 数据量大 TB PB
    • 全局参数量大 1 0 9 ∼ 1 0 12 10^{9} \sim 10^{12} 1091012
    • 计算复杂度高 (时间接续全局同步)
    • 数据通信量大 (所有节点频繁访问)
    • 容灾性能
  • 主要亮点
    • 有效通讯 异步通讯算法 针对机器学习算法压缩通讯量 过滤不重要信息
    • 较弱一致 允许延后 受限延迟
    • 弹性扩大 加入新节点不影响计算
    • 秒级容灾 向量钟 实时复制服务节点 链式备份
    • 抽象易用 张量键值通信
  • 工程难点
    • 反复读写全局参数
    • 收集整理节点及其统计量
    • 服务节点 维护一部分全局参数
    • 工作节点 计算参数
  • 分布式梯度下降
    • 任务调度者 读取样本 T次工作节点更新
    • 工作节点 接收权重 计算梯度 发送梯度
    • 服务节点 汇总梯度
  • 工程实现
    • 向量钟
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值