学习笔记:
一、背景-纵向数据分割场景和树模型
1. 纵向树模型是基于纵向分割数据集训练的决策树模型,相同样本在不同特征维度上进行训练。
2. 通常需要前置求交集,SS-XGB/SGB XGB有优势的场景包括提高AUC、合作完成建模以及更多数据->更多价值等。
3. 纵向联合建模需要考虑数据、算法和可解释性等因素。
二、使用-隐语纵向树模型
1. 隐语提供的纵向树模型算法实现了XGB的经典功能,采用MPC进行密态计算,无信息泄漏,可证安全。
2. 网络条件好时效率高,支持SS-XGB和SecretShared ExtremeGradientBoost两种算法。
三、原理和实现-从理论到工程
1. SS-XGB/SGB算法是如何炼成的?经典算法到MPC算法需要进行算法改造三部曲,确定保护的数据部分、准备安全原语和改造数据结构和算法。
2. 如何修改源码实现合适的功能?开发实战包括组件封装、算法修改和模型导出三部曲。
3. SS-XGB / SGB 在隐语实现有什么独特优势?隐语的优势包括提供设备抽象、重点算子优化破瓶颈、分层架构和开源共建。
四、实践
1. 用ss-XGB来完成刚才老师演示的SGB流程。
2. 当用ss-XGB跑完相同的流程后,它的test AUC是多少?
3. 如果Alice有15个特质,Bob有1个特质,如果用SGB和ss-XGB做联合建模,我们是否还会获得额外的 AUC的收益?
提示:
1. 查看ss xgb的文档和教程。
2. 可以使用Python Pandas包在本地拆分数据,然后将文件上传到Alice或Bob。