摘要
Federated Learning:leaves the training data distributed on the mobile devices, and learns a shared model by aggregating locally-computed updates.
关键词:共享模型 整合本地运算的更新
Method:based on iterative model averaging
Principal constraint:communication costs.
主要内容
-
由松散的客户端联合解决的,这些设备由一个中央服务器协调。 每个客户端都有一个本地培训数据集,它从未上传到服务器。 每个客户端计算对服务器维护的当前全局模型的更新,并且只传达此更新。数据应用后是不保存的。(移动设备分散的数据训练,模型训练不需要直接访问数据)
-
Federated Averaging algorithm
-
优化方向(论文涉及下面第1,2,4点)
-
Non-IID:非独立同分布,即每个设备的数据不能代表整体的分布;
-
Unbalance:各用户使用频率不相同,单个期望与总体期望不同;
-
Massively distributed:预计参与优化的客户数量大于每个客户的平均示例数量;
-
Limited communication:设备有时离线或缓慢或连接成本昂贵;
-
-
通信成本占主导。因此加速方法为在每个客户端上添加了更多的计算。
-
计算量由3个关键参数控制:
-
C:每一轮进行计算的客户端的比例;
-
E:每个客户端每一轮通过其本地数据集的训练次数;
-
B:用于更新的本地数据集的大小。
-
-
实验结果:
-
通过改变E和B来增加u是有效的,只要B足够大,可以充分利用客户端硬件上可用的并行性;
-
IID样本得到的优化更多,non-IID较小,但仍然很可观。
-
正则化效益
-
当前模型参数仅通过初始化影响在每个客户端更新中执行的优化。 因此,作为E→∞,至少对于凸问题,初始条件应该是不相关的,并且无论初始化如何,都将达到全局最小值。非凸问题预计也能收敛到局部最小值。
-
名词解析
-
feed-forward deep networks:前馈神经网络(FFDN)?
-
LSTM:循环神经网络?
-
non-convex neural network:非凸神经网络?
-
SGD:随机梯度下降
-
wall-clock time:挂钟时间
问题
-
文章中convexity凸度指的是什么?凸度为什么非凸目标在参数空间中的平均模型可能产生坏的模型? 凹函数极值。
-
前馈神经网络、循环神经网络、非凸神经网络需要进一步了解吗? 需要时查看。