讲习暑期课程
第1课 数据要素概论
1.信任的基石:身份可确认、利益可依赖、能力有预期、行为有后果
2.内循环:数据持有方
外循环(信任焦虑)容易:责任主体不清、利益诉求不一致、能力参差不齐、责任链路难追溯
3.运维信任(主体信任)➡️技术信任(技术保障信任的基石)
4.技术信任
·可信数字应用身份
·使用权跨域管控:数据使用权、持有权的分割
对齐数据流通链条上的利益诉求
规范化技术要求(隐私计算、数据沙箱)
·能力预期与不可能三角(安全要求、功能复杂度、单位成本)➡️数据分级分类
未来多种技术路线并存,安全分级平衡性能成本需求
·全链路审计,闭环完整的数据可信流通体系(定责定损)
5.多方安全计算(纯密码学)
联邦学习(密码学+机器学习)
6.数据三权:数据产品经营权、数据加工使用权、数据资源持有权
7.隐私计算三原则:数据可用不可见、数据可算不可识、使用可控可计量
8.隐私计算开源的好处:普惠、安全、标准化
第2课 隐语架构详解及部署
1.隐语产品:可视化 模式化API
2.隐语开发者文档https://www.secretflow.org.cn/docs/secretflow/latest/zh-Hans
第3课 隐私求交和隐语PSI的介绍
1.PSI(Private Set Intersection)安全求交集:
·一种特殊的安全多方计算(MPC)交易
·Alice持有集合X,Bob持有集合Y
·Alice和Bob通过执行PSI协议,得到交集X交Y
·除交集外不会泄漏交集外的其他信息
2.基于SPU可以实现许多种的PSI
第4课 匿踪查询和隐语PIR的介绍及开发实
1.PIR匿踪查询:允许用户查询数据却不会暴露他们想知道什么
第5课 隐语SCQL的架构详析拆解与开发实践
1.隐私保护BI:允许多个互不信任的参与方在不泄漏各自隐私数据的条件下进行联合数据分析
2.数据属于不同机构:
·TEE SQL(基于第三方或可行执行环境)
·MPC SQL(数据不用出域)
3.SCQL(Secure Collaborative Query Language)
4.CCL(Column Control List)是一种约束机制:数据拥有方允许某列数据被某个参与方以满足某种约束条件下进行访问
5.SCQL目前有API来使用
第6课 隐语多方安全计算在安全核对的行业实践
1.安全核对出现背景:数据跨域的核对需求
2.安全自证(抽检):可审查 可视化 可攻防
第7课 基于隐私保护的机器学习算法介绍与逻辑回归LR与广义线性模型GLM开发实践
1.预处理:水平切分 垂直切分(大表分小表) 混合切分
2.隐私求交PSI(Private Set Intersection)
·使用密码学算法,获取两份数据内容的交集算法
·垂直拆分中,隐私求交常用语第一步的数据对齐,然后进一步地做数据分析或机器学习建模
3.支持多种决策树模型和线性回归模型
4.神经网络算法
·水平联邦学习(支持tensorflow和pytorch)
·垂直拆分学习(也支持tensorflow和pytorch) 两边都有特征(无label)
一边有特征 另一边是label
5.广义线性模型(GLM)
第8课 XGB算法与SGB算法开发实践与密态引擎SPU框架介绍
1.纵向树模型:基于纵向分割数据集训练的决策树模型
用户之间不想泄漏信息
2.在安全性要求没有那么强的时候我们使用SS-XGB,在必须要保证数据安全时我们使用SGB(SecureBoost)
3.SS-XGB密态模型:各方持有分片,不联合➡️无法得到任何信息
SGB联邦模型:各方持有部分明文参数(分裂点,叶子权重)
4.隐私计算有包括多方安全计算、同态加密、差分隐私、可信硬件……
5.SPU有自己的前端、编译器
第10课 PPML入门/基于SPU机器学习建模实践
1.安全多方计算MPC:多个参与方可以在互不泄漏任何信息(除结果外)的情况下协作计算一个函数
2.密态训练与推理
第11课 组件介绍与自定义开发
(隐语SECRET FLOW快速体验平台)
隐私计算实训营
第1讲 数据可信流通,从运维信任到技术信任
(内容和之前一致)
第2讲 隐私计算开源如何助力数据要素流通
(内容和之前一致)
第3讲 详解隐私计算框架及技术要点
1.PSI(Private Set Intersection)安全求交集:
·一种特殊的安全多方计算(MPC)交易
·Alice持有集合X,Bob持有集合Y
·Alice和Bob通过执行PSI协议,得到交集X交Y
·除交集外不会泄漏交集外的其他信息
2.PIR(Private Information Retrieval)
用户查询服务端数据库中的数据,但服务端不知道用户查询的是哪些数据
3.SCQL(Secure Collaborative Query Language)
一种多方安全数据分析系统,可以让互不信任的参与方在保护自己数据隐私的前提下,完成多方数据分析任务
4.半诚实模型:各方被假设为遵守协议的规则,不会主动违背协议。然而,他们可能会在协议执行过程中分析所获得的信息,以尝试推断或泄露其他参与方的信息。这种模型允许参与方在协议过程中尽可能诚实,但仍可能利用他们获得的信息以达到不正当的目的。
5.联邦学习(水平联邦+垂直联邦)
在原始数据不出域的前提下,通过交换中间数据完成机器学习建模
6.KUSCIA
基于K8s的隐私计算任务编排框架
7.跨域管理
数据离开持有者的运维域后,数据方仍然能够有效地控制数据的流转过程,避免其被窃取或者非预期使用
第4讲 隐语SecretFlow安装部署
1.我选择了wsl方式,步骤如下:
(1)安装wsl
(2)wsl安装ubuntu
(3)ubuntu中装anaconda
(4)anaconda中装secretflow
(5)在ubuntu命令行中测试安装是否成功(如下图)
第5讲 隐语PSI介绍及开发实践
1.PSI(Private Set Intersection)安全求交集
2.PSI功能图
3.SPU实现PSI的种类
·半诚实模型(两方or多方)
·恶意模型
4.SPU PSI调用框架(分桶调度)
bucket_psi、memory_psi 、operator、batch_provder
5.secretflow两种模式:集群仿真模式、生产模式
6.隐语PSI流程
·启动ray集群
·初始化secretflow
·启动SPU设备
·执行PSI