weixin_42296932-CSDN博客

原创第 12 课：基于隐语的VisionTransformer框架

MPCViT隐私推理总体框架中，其底层协议是基于半诚实威胁模型的 2PC的秘密分享方案，简单来说即服务器和客户端相互不能泄漏自己的信息，最终要得到神经网络正确的推理结果。在上层模型方面，VisionTransformer是一种基于Transformer编码器的视觉模型，包含了embedding层，注意力层，非线性GeLU函数等多个不同模块，总体目标是在保护数据和模型隐私的前提下，以更高的推理效率得到最终图像分类的结果。3、基于延迟限制的架构参数二值化（灵活适应）1、设计合适的搜索空间（三种不同的粒度）

2024-06-26 15:34:04 417

原创第 11 课：组件介绍与自定义开发

隐语中认为所有的数据都是分布式数据，即DistData（分为两部分，Public Data（Name、Type、Meta、system_info）和DataRef（ownership、uri））。本讲主要介绍了隐语的组件标准、已有的组件能力以及进一步的自定义开发流程。隐语生态中各模块之间的交互，都是依赖于隐语的开放标准。可以使用多种方式调用隐语组件，包括SecretFlow CLI/Lib（无需任何其他依赖）、Kuscia（简化数据同步和调度操作）、SecretPad（使用用户界面）。

2024-06-26 12:21:46 306

原创第 10 课：PPML入门/基于SPU机器学习建模实践

机器学习中的数据隐私问题日益受到关注，数据是至关重要的，训练高质量模型需要大量数据，同时模型服务商也需要用户输入数据作为推理输入，同时数据也包含了很多敏感信息。整个密态训练流程和明文ML类似，P1，P2对应明文输入设备 SPU对应由两方Cheetah协议实现的密态计算设备，通过SPU device抽象来实现PPML中的数据输入以及密态训练/推理。核心系统组件包括前端（机器学习程序），编译器（生成并优化 SPU 的 IR（PPHLO）），运行时（以MPC协议的方式执行PPHLO）。2、如何加密保护数据？

2024-06-26 01:17:29 267

原创第 9 课：SML入门/基于SPU迁移机器学习算法实践

A：有以下几个思路可以参考： 1. 减少耗时算子的调用（计算公式重写，多项式近似等） 2. 避免重复计算（空间换效率） 3. 并行化实际上，SPU内部已经做了大量的并行操作，若希望进一步优化，可以尝试： 1. 算法层：for循环很多时候可以通过高阶tensor运算来代替，也可以考虑使用jax.vmap进行自动向量化 2. Runtime：尝试开启更多并行（experimental feature），如experimental_enable_inter_op_par（即DAG并行）。三、明文算法迁移流程。

2024-06-25 00:05:48 413

原创第 8 课：密态引擎SPU框架介绍

基于密码学的隐私计算，提供了非常有限的计算能力，加密计算有易用性差（类型简单，加/乘/与/或等，算子比较底层），性能较差等挑战。SPU的编程界面，使用原生AI框架，使用JIT编译执行，生态无缝衔接，通过修改配置文件即可更改安全协议，无需代码修改。SPU作为AI和密码学之间的桥梁，希望可以进一步加速构建隐私计算的生态，例如通过SPU提供的原生Numpy API，构建安全sklearn-like机器学习库，构建安全pandas-like数据分析库，支持更多的安全后端等。本讲主要内容是SPU框架整体结构的介绍。

2024-06-24 22:38:12 395

原创第 7 课：XGB算法与SGB算法开发实践

普通的树模型是不区分横向和纵向概念的，纵向树模型即基于纵向分割数据集训练的决策树模型。跟传统的机器学习一致，SS-XGB包括准备阶段（环境和数据集，主要是SPU配置和加载纵向数据），训练阶段（参数设置和执行，XGBoost的参数较多，需要精心设置）以及模型评估（分为安全和不安全的评估方法，计算指标和采取进一步决策）。关于纵向多方协同的集成树模型XGB算法，隐语提供了基于两种不同加密协议实现的算法，一种是基于MPC协议实现SS-XGB，一种是基于半同态加密算法实现的SecureBoost。

2024-06-24 18:36:49 518

原创第 6 课：逻辑回归LR与广义线性模型GLM开发实践

优化器有一阶优化器（SGD参数估计方法，在密态中经常会用到SGD）和二阶优化器（迭代重加权最小二乘法，IRLS），前者计算简单，计算量/通信量较小，后者初始化准确（不同于SGD随机选取，而是根据Y的期望计算得到，初始跟收敛点非常接近），收敛速度快，但是计算量大，因为涉及到多方参与计算，所以计算/通信复杂度高。如下图所示案例，三个参与方A，B，C分别有秘密值15，25，10，如何在不让其他参与方知道自己的秘密值的情况下，计算三个参与方秘密值之和。（数值项，可拟合），二是误差组件，即白噪声，近似服从。

2024-06-21 17:48:13 672

原创第 5 课：基于隐私保护的机器学习算法介绍

DataFrame跟Pandas的DataFrame API类似，是一个联邦表格数据的封装，由多参与方的数据块构成，支持多种切分模式，即数据水平切分（HDataFrame，每一方特征一致，但是有各自的样本）、垂直切分(VDataFrame，每一方有各自的特征，但是它们的样本是对齐的，一般是先经过PSI对齐后得到的一组数据)和混合切分（MixDataFrame，既有水平切分又有垂直切分）。所谓求交，即获取两份数据内容交集的算法，而隐私求交，是使用密码学方法，在求交过程中不泄露任务交集以外的任何信息。

2024-06-17 18:11:47 526

原创 Llama 3 超级课堂作业

在完成 Llama 3 Web Demo 部署的基础上进行FT。三、使用 LMDeploy 成功部署 Llama 3 模型。1、环境配置&下载模型&安装XTuner。一、完成 Llama 3 Web Demo 部署。2、Web Demo 部署。二、使用 XTuner 完成小助手认知微调。1、自我认知训练数据集准备。PTH 转为HF格式。

2024-05-05 01:12:44 343

原创第七课：轻松玩转书生·浦语OpenCompass 大模型评测实战｜笔记｜作业

视频链接：OpenCompass 大模型评测实战_哔哩哔哩_bilibili

2024-04-23 12:14:46 169

原创第六课：轻松玩转书生·浦语Lagent & AgentLego 智能体应用搭建｜笔记｜作业

视频链接：Lagent & AgentLego 智能体应用搭建_哔哩哔哩_bilibili

2024-04-23 12:13:40 168

原创第五课：轻松玩转书生·浦语LMDeploy 量化部署 LLM-VLM 实践｜笔记｜作业

视频链接：LMDeploy 量化部署 LLM-VLM 实践_哔哩哔哩_bilibili

2024-04-23 12:10:26 224

原创第四课：轻松玩转书生·浦语XTuner 微调 LLM：1.8B、多模态、Agent｜笔记｜作业

视频链接：XTuner 微调 LLM：1.8B、多模态、Agent_哔哩哔哩_bilibili

2024-04-19 22:53:33 231

原创第三课：轻松玩转书生·浦语茴香豆：搭建你的 RAG 智能助理｜笔记｜作业

视频链接：茴香豆：搭建你的 RAG 智能助理_哔哩哔哩_bilibili

2024-04-16 17:39:51 331

原创隐私计算实训营第1期｜第9讲：隐语多方安全计算在安全核对的行业实践丨笔记

视频链接：第9讲：隐语多方安全计算在安全核对的行业实践丨隐私计算实训营第1期_哔哩哔哩_bilibili具体内容如下：

2024-04-06 23:11:09 237

原创第二课：轻松玩转书生·浦语大模型趣味 Demo｜笔记｜作业

界面，点击创建开发机配置开发机系统。1、配置基础环境，打开。

2024-04-05 23:17:49 440

原创隐私计算实训营第1期｜第8讲：隐语SCQL的开发实践丨笔记

一、SCQL使用/集成最佳实践。二、SCQL工作原理。

2024-04-05 17:49:10 279

原创隐私计算实训营第1期｜第7讲：隐语SCQL的架构详细拆解丨笔记

由于SQL的语法非常灵活，因此存在用户去恶意的构造Query获取原始数据的可能，例如用户通过Select * 选取所有数据明细，为了规避类似风险，保护数据安全，在执行Query之前需要获得所有参与方的审核确认，但是这样对审核人的要求就非常高，需要具有分析Query泄漏数据风险的能力，审核强度大，同时因为要等所有参与方审核完成，这样审核周期会比较长影响效率。如上图所示，如果ta表和tb表的数据属于同一个机构，可以采用传统MySQL，OceanBase，Hive，ODPS，Spark等方案解决。

2024-04-02 20:16:58 1755

原创第一课: 书生·浦语大模型全链路开源体系｜笔记

三、InternLM2 技术报告解读。二、InternLM2 开源体系。一、InternLM2 简介。

2024-03-31 19:58:38 291

原创隐私计算实训营第1期｜第6讲：隐语PIR介绍及开发实践丨笔记

PIR按照服务器数量分类，有单服务器方案（Single Server）和多服务器方案（Multi-Server），按照查询类型分类，可以分为Index PIR和Keyword PIR。二是PIR的调用框架，主要是对PSI/PIR的代码库进行独立，三是PIR的产品化，包括产品需求进一步的深入了解和落地方案的设计。隐语PIR实现位置在SPU的代码库，底层依赖YACL的密码库，在上层的封装即secretflow中的接口有pir_setup、pir_query和pir_mem_query（基于内存）。

2024-03-31 19:46:55 511

原创隐私计算实训营第1期｜第5讲：隐语PSI介绍及开发实践丨笔记

PSI按照参与方数量可以分为：两方和多方PSI，按照数据集的差异可以分为：Balanced和UnBalanced PSI，按照安全模型可分为：半诚实和恶意PSI，按照计算的PSI可以分为：PSI-CA(Cardinality)，PSI-Payload Analytics以及Circuit PSI。SPU实现的PSI种类，首先半诚实模型中有两方（ecdh，kkrt16，bc22，ec-oprf PSI，dp-psi）和多方（ecdh-3-party），其次恶意模型中有mini-PSI（适合小数据集）

2024-03-27 23:33:24 337

原创隐私计算实训营第1期｜第4讲：隐语SecretFlow/SecretNote的安装与使用丨笔记

pip源更换为清华源：pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ secretflow。环境：Red Hat Enterprise Linux release 8.8 (Ootpa)也可以通过docker compose安装secretnote。浏览器中访问：ip:12345。

2024-03-23 17:52:32 677 1

原创隐私计算实训营第1期｜第3讲：详解隐私计算框架及技术要点丨笔记

HEU的设计是为计算任务提供硬件级的支持，以加速全同态加密计算，并降低计算开销，为全同态加密计算提供了高效、安全的硬件支持。资源层之上是计算层，包含了很多隐私保护计算，例如多方安全计算（Secure Multi-Party Computation，MPC）、同态加密、可信执行环境（TEE）、可信密态计算（Trusted-Environment-based Cryptographic Computing，TECC）、差分隐私（DifferentialPrivacy，DP）、脱敏等。

2024-03-22 19:42:26 1622

原创隐私计算实训营第1期｜第2讲：隐私计算开源如何助力数据要素流通丨笔记

过去数据流通的主要模式，是将数据打包交付，从某种意义上来讲是将数据所有权完全交付，这是一个关键，随着我国数据二十条的出台，数据三权分置（数据资源持有权，数据加工使用权，数据产品经营权）也成为了大趋势。用户隐私泄露的问题等。通过数据外循环，数据提供方和数据使用方都可以受益，前者可以获得数据新的增长点和数据资本化机会，后者可以提升业务效果，扩大营收。数据要素大潮带来了全新的数据安全外循环技术挑战，其中信任焦虑是我们看到的数据要素流通面临的问题和关键挑战，我们需要从主体信任逐步走向技术信任，构建技术信任体系。

2024-03-21 18:36:23 1653

原创隐私计算实训营第1期｜第1讲：数据可信流通，从运维信任到技术信任丨笔记

（包括对运维人员的限制，对数据研发过程的管控以及对全链路可信审计的保障，其中技术体系包括跨域计算，跨域存储，可信审计等，可以通过隐私计算、可信计算、机密计算等不同技术路线实现，技术要求标准是一致的）4、行为有后果：全链路可信审计，覆盖原始数据到衍生数据，有效支撑行业低成本的责任界定。数据可信流通需要安全可信基础设施的融合布局，数据流通领域正在告别数据明文时代，开启数据密态时代新征程，确保数据不泄漏不滥用，并通过密码学，可信芯片，机密计算等技术大大降低密态计算的成本，其背后的基础设施是密态天空计算。

2024-03-20 20:10:53 362

weixin_42296932的博客