第五讲 基于隐私保护的机器学习算法介绍
1.预处理和隐私求交
预处理:
01.DataFrame:
联邦表格数据的封装,DataFrame由多个参与方的数据块构成,支持数据水平、垂直切分和混合切分,分别对应 3 组API:HDataFrame、VDataFrame、MixDataFrame
缺失值填充:df.fillna函数
标准化:secretflow.preprocessing库
02.FedNdarray:
联邦ndarray 的封装,同样由多个参与方的数据块构成,支持水平和垂直切分,对应统一的API:FedNdarray
隐私求交 PSI
是一种使用密码学方法,获取两份数据内容的交集的算法。PSI过程中不泄露任务交集 以外的信息。 在垂直拆分场景中,隐私求交常用于第一步的数据对齐,然后可以进一步做数据分析或机器学习建模。
使用spu.psi_csv等接口,使用data.vertical.read_csv接口
2.决策树模型和线性回归模型
多种决策树算法(XGB),同时支持回归和二分类训练。 SS-XGB SecureBoost 水平XGBoost
神经网络算法
水平联邦学习,垂直拆分学习,
非可证安全算法
水平联邦学习FLModel
支持TensorFlow和PyTorch两种后端,使用tf,torch原生方式编写模型代码,使用FLModel训练
垂直拆分学习
SLModel通用范式,和水平联邦学习相同,不同的是需要模型拆分