垂直联邦学习、数据隐私、跨行业协作、模型训练、数据安全
1. 背景介绍
数据是当今社会最宝贵的资源之一,其价值体现在信息挖掘、知识发现和决策支持等方面。然而,数据往往分散在不同的机构或企业手中,难以进行有效整合和利用。传统的集中式机器学习模型训练需要将所有数据集中到一个中心服务器上,这带来了严重的隐私泄露风险和数据安全问题。
近年来,联邦学习(Federated Learning,FL)作为一种分布式机器学习方法,逐渐受到广泛关注。FL允许模型在各个数据拥有者本地进行训练,并将模型参数进行聚合更新,从而实现数据在不离开本地设备的情况下进行协同学习。然而,传统的FL方法主要针对同类型数据场景,难以有效应对跨行业数据协作的需求。
垂直联邦学习(Vertical Federated Learning,VFL)作为FL的一种扩展,旨在解决跨行业数据协作的挑战。VFL允许不同行业的数据拥有者共享数据,共同训练模型,而无需将原始数据进行泄露。
2. 核心概念与联系
VFL的核心概念是将数据分割成垂直维度,每个数据拥有者只拥有特定维度的完整数据,而其他维度的完整数据则分散在其他数据拥有者手中。VFL通过将模型参数进行分层训练和聚合更新,实现跨行业数据协作。