分布式学习:如图所示,训练数据被分为不相交的数据碎片,多个worker在本地训练模型,进行梯度下降,然后将梯度或者模型参数发送给server。
DML包括两类:面向扩展的:解决数据量指数增长,计算需求的问题
面向隐私的:针对用户的隐私保护问题
面向拓展性的DML方法:
- 数据并行:将训练数据划分为多个子集,将子集置于多个计算实体中,之后并行的训练同一个模型。意思是使用多个计算设备,通过同一个模型的多个副本,进行训练。
训练集X -->𝑥1𝑥2……𝑥𝑚−−−→𝑚𝑜𝑑𝑒𝑙(同一个副本)
- 模型并行:比如DNN模型将每一个层放入单一设备的内存中每一层的输入输出通过前向或者后向的传播传输到另一台计算设备。只有当模型不能放入单一设备,且不需要训练速度增加很多时,才会采用该模型并行方式。
- 图并行:基于图,比数据并行要快,是一种新技术
- 任务并行:多线程的
面向隐私保护的DML方法:
隐私保护的ML系统通常保护以下信息:训练数据输入,预测标签输出,模型信息(参数,梯度,损失函数),身份识别信息。
- 隐私保护决策树:通常用在分类和回归项目上,主要是数据集的划分。
- 隐私保护方法
(1) 模糊处理:随机化,加噪声,修改数据某一段使其拥有一级的隐私,比如差分隐私
(2) 密码学方法:不以明文进行数据,传输比如安全多方
这一章主要是对目前的DML方法进行了介绍,没有涉及算法,都是一些概念类的。具体内容直接看书。