- 博客(25)
- 收藏
- 关注
原创 第 12 课:基于隐语的VisionTransformer框架
MPCViT隐私推理总体框架中,其底层协议是基于半诚实威胁模型的 2PC的秘密分享方案,简单来说即服务器和客户端相互不能泄漏自己的信息,最终要得到神经网络正确的推理结果。在上层模型方面,VisionTransformer是一种基于Transformer编码器的视觉模型,包含了embedding层,注意力层,非线性GeLU函数等多个不同模块,总体目标是在保护数据和模型隐私的前提下,以更高的推理效率得到最终图像分类的结果。3、基于延迟限制的架构参数二值化(灵活适应)1、设计合适的搜索空间(三种不同的粒度)
2024-06-26 15:34:04 417
原创 第 11 课:组件介绍与自定义开发
隐语中认为所有的数据都是分布式数据,即DistData(分为两部分,Public Data(Name、Type、Meta、system_info)和DataRef(ownership、uri))。本讲主要介绍了隐语的组件标准、已有的组件能力以及进一步的自定义开发流程。隐语生态中各模块之间的交互,都是依赖于隐语的开放标准。可以使用多种方式调用隐语组件,包括SecretFlow CLI/Lib(无需任何其他依赖)、Kuscia(简化数据同步和调度操作)、SecretPad(使用用户界面)。
2024-06-26 12:21:46 306
原创 第 10 课:PPML入门/基于SPU机器学习建模实践
机器学习中的数据隐私问题日益受到关注,数据是至关重要的,训练高质量模型需要大量数据,同时模型服务商也需要用户输入数据作为推理输入,同时数据也包含了很多敏感信息。整个密态训练流程和明文ML类似,P1,P2对应明文输入设备 SPU对应由两方Cheetah协议实现的密态计算设备,通过SPU device抽象 来实现PPML中的数据输入以及密态训练/推理。核心系统组件包括前端(机器学习程序),编译器(生成并优化 SPU 的 IR(PPHLO)), 运行时(以MPC协议的方式执行PPHLO)。2、如何加密保护数据?
2024-06-26 01:17:29 267
原创 第 9 课:SML入门/基于SPU迁移机器学习算法实践
A:有以下几个思路可以参考: 1. 减少耗时算子的调用(计算公式重写,多项式近似等) 2. 避免重复计算(空间换效率) 3. 并行化 实际上,SPU内部已经做了大量的并行操作,若希望进一步优化,可以尝试: 1. 算法层:for循环很多时候可以通过高阶tensor运算来代替,也可以考虑使用jax.vmap进行自动向量化 2. Runtime:尝试开启更多并行(experimental feature),如experimental_enable_inter_op_par(即DAG并行)。三、明文算法迁移流程。
2024-06-25 00:05:48 413
原创 第 8 课:密态引擎SPU框架介绍
基于密码学的隐私计算,提供了非常有限的计算能力,加密计算有易用性差(类型简单,加/乘/与/或等,算子比较底层),性能较差等挑战。SPU的编程界面,使用原生AI框架,使用JIT编译执行,生态无缝衔接,通过修改配置文件即可更改安全协议,无需代码修改。SPU作为AI和密码学之间的桥梁,希望可以进一步加速构建隐私计算的生态,例如通过SPU提供的原生Numpy API,构建安全sklearn-like机器学习库,构建安全pandas-like数据分析库,支持更多的安全后端等。本讲主要内容是SPU框架整体结构的介绍。
2024-06-24 22:38:12 395
原创 第 7 课:XGB算法与SGB算法开发实践
普通的树模型是不区分横向和纵向概念的,纵向树模型即基于纵向分割数据集训练的决策树模型。跟传统的机器学习一致,SS-XGB包括准备阶段(环境和数据集,主要是SPU配置和加载纵向数据),训练阶段(参数设置和执行,XGBoost的参数较多,需要精心设置)以及模型评估(分为安全和不安全的评估方法,计算指标和采取进一步决策)。关于纵向多方协同的集成树模型XGB算法,隐语提供了基于两种不同加密协议实现的算法,一种是基于MPC协议实现SS-XGB, 一种是基于半同态加密算法实现的SecureBoost。
2024-06-24 18:36:49 518
原创 第 6 课:逻辑回归LR与广义线性模型GLM开发实践
优化器有一阶优化器(SGD参数估计方法,在密态中经常会用到SGD)和二阶优化器(迭代重加权最小二乘法,IRLS),前者计算简单,计算量/通信量较小,后者初始化准确( 不同于SGD随机选取,而是根据Y的期望计算得到,初始跟收敛点非常接近),收敛速度快,但是计算量大,因为涉及到多方参与计算,所以计算/通信复杂度高。如下图所示案例,三个参与方A,B,C分别有秘密值15,25,10,如何在不让其他参与方知道自己的秘密值的情况下,计算三个参与方秘密值之和。(数值项,可拟合),二是误差组件,即白噪声,近似服从。
2024-06-21 17:48:13 672
原创 第 5 课:基于隐私保护的机器学习算法介绍
DataFrame跟Pandas的DataFrame API类似,是一个联邦表格数据的封装,由多参与方的数据块构成,支持多种切分模式,即数据水平切分(HDataFrame,每一方特征一致,但是有各自的样本)、垂直切分(VDataFrame,每一方有各自的特征,但是它们的样本是对齐的,一般是先经过PSI对齐后得到的一组数据)和混合切分(MixDataFrame,既有水平切分又有垂直切分)。所谓求交,即获取两份数据内容交集的算法,而隐私求交,是使用密码学方法,在求交过程中不泄露任务交集以外的任何信息。
2024-06-17 18:11:47 526
原创 Llama 3 超级课堂作业
在完成 Llama 3 Web Demo 部署的基础上进行FT。三、使用 LMDeploy 成功部署 Llama 3 模型。1、环境配置&下载模型&安装XTuner。一、完成 Llama 3 Web Demo 部署。2、Web Demo 部署。二、使用 XTuner 完成小助手认知微调。1、自我认知训练数据集准备。PTH 转为HF格式。
2024-05-05 01:12:44 343
原创 第七课:轻松玩转书生·浦语OpenCompass 大模型评测实战|笔记|作业
视频链接:OpenCompass 大模型评测实战_哔哩哔哩_bilibili
2024-04-23 12:14:46 169
原创 第六课:轻松玩转书生·浦语Lagent & AgentLego 智能体应用搭建|笔记|作业
视频链接:Lagent & AgentLego 智能体应用搭建_哔哩哔哩_bilibili
2024-04-23 12:13:40 168
原创 第五课:轻松玩转书生·浦语LMDeploy 量化部署 LLM-VLM 实践|笔记|作业
视频链接:LMDeploy 量化部署 LLM-VLM 实践_哔哩哔哩_bilibili
2024-04-23 12:10:26 224
原创 第四课:轻松玩转书生·浦语XTuner 微调 LLM:1.8B、多模态、Agent|笔记|作业
视频链接:XTuner 微调 LLM:1.8B、多模态、Agent_哔哩哔哩_bilibili
2024-04-19 22:53:33 231
原创 第三课:轻松玩转书生·浦语茴香豆:搭建你的 RAG 智能助理|笔记|作业
视频链接:茴香豆:搭建你的 RAG 智能助理_哔哩哔哩_bilibili
2024-04-16 17:39:51 331
原创 隐私计算实训营 第1期|第9讲:隐语多方安全计算在安全核对的行业实践丨笔记
视频链接:第9讲:隐语多方安全计算在安全核对的行业实践丨隐私计算实训营 第1期_哔哩哔哩_bilibili具体内容如下:
2024-04-06 23:11:09 237
原创 隐私计算实训营 第1期|第7讲:隐语SCQL的架构详细拆解丨笔记
由于SQL的语法非常灵活,因此存在用户去恶意的构造Query获取原始数据的可能, 例如用户通过Select * 选取所有数据明细,为了规避类似风险,保护数据安全,在执行Query之前需要获得所有参与方的审核确认,但是这样对审核人的要求就非常高,需要具有分析Query泄漏数据风险的能力,审核强度大,同时因为要等所有参与方审核完成,这样审核周期会比较长影响效率。如上图所示,如果ta表和tb表的数据属于同一个机构,可以采用传统MySQL,OceanBase,Hive,ODPS,Spark等方案解决。
2024-04-02 20:16:58 1755
原创 第一课: 书生·浦语大模型全链路开源体系|笔记
三、InternLM2 技术报告解读。二、InternLM2 开源体系。一、InternLM2 简介。
2024-03-31 19:58:38 291
原创 隐私计算实训营 第1期|第6讲:隐语PIR介绍及开发实践丨笔记
PIR按照服务器数量分类,有单服务器方案(Single Server)和多服务器方案(Multi-Server),按照查询类型分类,可以分为Index PIR和Keyword PIR。二是PIR的调用框架,主要是对PSI/PIR的代码库进行独立,三是PIR的产品化,包括产品需求进一步的深入了解和落地方案的设计。隐语PIR实现位置在SPU的代码库,底层依赖YACL的密码库,在上层的封装即secretflow中的接口有pir_setup、pir_query和pir_mem_query(基于内存)。
2024-03-31 19:46:55 511
原创 隐私计算实训营 第1期|第5讲:隐语PSI介绍及开发实践丨笔记
PSI按照参与方数量可以分为:两方和多方PSI,按照数据集的差异可以分为:Balanced和UnBalanced PSI,按照安全模型可分为:半诚实和恶意PSI,按照计算的PSI可以分为:PSI-CA(Cardinality),PSI-Payload Analytics以及Circuit PSI。SPU实现的PSI种类,首先半诚实模型中有两方(ecdh,kkrt16,bc22,ec-oprf PSI,dp-psi)和多方(ecdh-3-party),其次恶意模型中有mini-PSI(适合小数据集)
2024-03-27 23:33:24 337
原创 隐私计算实训营 第1期|第4讲:隐语SecretFlow/SecretNote的安装与使用丨笔记
pip源更换为清华源:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ secretflow。环境:Red Hat Enterprise Linux release 8.8 (Ootpa)也可以通过docker compose安装secretnote。浏览器中访问:ip:12345。
2024-03-23 17:52:32 677 1
原创 隐私计算实训营 第1期|第3讲:详解隐私计算框架及技术要点丨笔记
HEU的设计是为计算任务提供硬件级的支持,以加速全同态加密计算,并降低计算开销,为全同态加密计算提供了高效、安全的硬件支持。资源层之上是计算层,包含了很多隐私保护计算,例如多方安全计算(Secure Multi-Party Computation,MPC)、同态加密、可信执行环境(TEE)、可信密态计算(Trusted-Environment-based Cryptographic Computing,TECC)、差分隐私(DifferentialPrivacy,DP)、脱敏等。
2024-03-22 19:42:26 1622
原创 隐私计算实训营 第1期|第2讲:隐私计算开源如何助力数据要素流通丨笔记
过去数据流通的主要模式,是将数据打包交付,从某种意义上来讲是将数据所有权完全交付,这是一个关键,随着我国数据二十条的出台,数据三权分置(数据资源持有权,数据加工使用权,数据产品经营权)也成为了大趋势。用户隐私泄露的问题等。通过数据外循环,数据提供方和数据使用方都可以受益,前者可以获得数据新的增长点和数据资本化机会,后者可以提升业务效果,扩大营收。数据要素大潮带来了全新的数据安全外循环技术挑战,其中信任焦虑是我们看到的数据要素流通面临的问题和关键挑战,我们需要从主体信任逐步走向技术信任,构建技术信任体系。
2024-03-21 18:36:23 1653
原创 隐私计算实训营 第1期|第1讲:数据可信流通,从运维信任到技术信任丨笔记
(包括对运维人员的限制,对数据研发过程的管控以及对全链路可信审计的保障,其中技术体系包括跨域计算,跨域存储,可信审计等,可以通过隐私计算、可信计算、机密计算等不同技术路线实现,技术要求标准是一致的)4、行为有后果:全链路可信审计,覆盖原始数据到衍生数据,有效支撑行业低成本的责任界定。数据可信流通需要安全可信基础设施的融合布局,数据流通领域正在告别数据明文时代,开启数据密态时代新征程,确保数据不泄漏不滥用,并通过密码学,可信芯片,机密计算等技术大大降低密态计算的成本,其背后的基础设施是密态天空计算。
2024-03-20 20:10:53 362
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人