联邦学习工程实践中的三大难题

置顶

hellompc

于 2020-07-02 17:07:28 发布

阅读量4.1k

点赞数 8

分类专栏：隐私计算联邦学习多方安全计算文章标签：云计算

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hellompc/article/details/107088610

版权

“实践是检验真理的唯一标准”，联邦学习谈概念的文章已经很多，今天我们来从实践中聊几个实事求是的问题。

联邦学习领域已有众多论文支撑，但在实践中，因为涉及到多学科的交叉，真正能落地应用的平台，少之又少。所以你可以看到已经有三四十家做联邦学习的公司，但是仅有七八家是能真正亮相产品。这应该是一个比较正常的现象，因为联邦学习工程落地所面临的挑战远远比理论复杂。

1）断点训练

断点训练，是指联邦学习过程中“训练可暂停”，如果发生多方之间的网络异常造成超时，待网络恢复正常后，联邦学习模型可从上次的断点开始继续训练，而避免重新开始。

这在我们的客户实际环境中非常重要，因为多方机构之间进行联合建模，无法预见和避免网络之间连接不稳定，一旦发生断网，普通的time out机制容易让学习过程超时或者异常退出。可能各家联邦学习平台的产品大多进行了网络不稳定的报警，这种处理是比较简单粗糙的，做一个心跳机制，不间断地去测试多方之间的网络情况，并发出日志报警。但是这种简单的处理方式只能帮助定位联邦学习建模过程出现的异常。试想，如果客户花了2小时眼看模型马上训练出来，进度条到99%的时候，突然time out了，是不是想死的心都有？这在用户体验上是极其不友好的。

下面我给出一种基于监控回调的处理方案：

“基于zookeeper的监控回调”断点训练方案

最低0.47元/天解锁文章

关注

8
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
联邦学习工程实践中的三大难题

“实践是检验真理的唯一标准”，联邦学习谈概念的文章已经很多，今天我们来从实践中聊几个实事求是的问题。联邦学习领域已有众多论文支撑，但在实践中，因为涉及到多学科的交叉，真正能落地应用的平台，少之又少。所以你可以看到已经有三四十家做联邦学习的公司，但是仅有七八家是能真正亮相产品。这应该是一个比较正常的现象，因为联邦学习工程落地所面临的挑战远远比理论复杂。1）断点训练断点训练，是指联邦学习过程中“训练可暂停”，如果发生多方之间的网络异常造成超时，待网络恢复正常后，联邦学习模型可从上次的断点开始继续训练
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。