1.背景
随着国家日益重视数据安全,数据在安全合规的前提下自由流动,已成了大势所趋。公司企业所拥有的数据往往都有巨大的潜在价值,这使得数据隐私保护尤为重要。而公司间以及公司的部门间也往往不愿意将数据进行简单粗暴的交换,这可能导致即使在同一个公司内,数据也往往以孤岛形式出现。
联邦学习的目标就是能有效帮助多个机构在满足用户隐私保护、数据安全和法规的要求下,进行数据使用和机器学习建模,以解决数据孤岛问题。
2.联邦学习的分类
我们把每个参与共同建模的企业称为参与方,根据多参与方之间数据分布的不同,把联邦学习分为三类:横向联邦学习、纵向联邦学习和联邦迁移学习。
2.1横向联邦学习:
横向联邦学习的本质是样本的联合,适用于特征重叠多,用户重叠少的场景,比如不同地区的银行间,他们的业务相似(特征相似),但用户不同(样本不同)
横向联邦学习的数据是横向切分的,参与方的数据schema都一致,拥有相同的特征。
2.1.1算法框架
横向联邦学习的基本框架与目前常见的分布式机器学习框架类似,从外表上看还是Master/Worker形式,每个参与方相当于一个Worker,参与方本地计算梯度,由一个数据中心(相当于Master&#x