TianxiaZhu824-CSDN博客

原创隐私计算实训营第二期第12基于隐语的VisionTransformer框架

然后，对比不同的注意力机制，发现它们中有的具有很好的效率，有的则具有很好的性能。那能否融合不同的注意力机制，在实现高准确率的同时实现高效率呢？搜索完成之后，可以对alpha进行排序，值较大的注意力设置为高延迟类型，值较小的注意力设置为低延迟类型。基于Jax的ViT模型搭建，主要分为patch embedding搭建、注意力机制搭建、MLP模块搭建、Transformer模块搭建。采用多粒度的自蒸馏方式，让异构的ViT去学习到原始softmaxViT的软标签以及最后一层的特征。

2024-06-30 20:39:13 241

原创隐私计算实训营第二期第11讲组件介绍与自定义开发

（2）DataRef（远程数据的句柄引用，会指定对应的所有者（所有权）以及对应的URI），比如分散在各计算节点中的碎片数据就是一种远程的密态数据。domain: 组件的命名空间。（1）PublicData（可以公开的数据），包含name、type、meta、system_info等信息，不同的type对应不同的meta；组件（Component）是隐语开放标准中最复杂的协议，组件表示可以集成到工作流中的一份应用程序。但是，在不同的命名空间中，可以具有相同名称的组件。，用户可以在系统中定位到一个唯一的组件。

2024-06-30 19:48:41 852 1

原创隐私计算实训营第二期第10讲PPML入门/基于SPU机器学习建模实践

那么我们是否可以直接以 MPC 的方式高效地运行已有的机器学习程序？事实上，ML 和MPC领域存在一些差异，如何去跨越这两种不同技术之间的差异？SPU是一种可行的方案。隐私计算实训营第二期第9讲SML入门/基于SPU迁移机器学习算法实践-CSDN博客SPU的核心系统组件主要分为三块，如图所示：前端，我们将依赖的AI前端代码翻译成XLA IR编译器，我们使用MLIR技术栈对HLO进行优化并翻译成PPHLO（SPU字节码）

2024-06-28 16:06:17 1187

原创隐私计算实训营第二期第9讲SML入门/基于SPU迁移机器学习算法实践

机器学习领域一般比较关注模型的训练、不同优化器的使用、不同的模型结构等，而隐私计算一般关注底层的基础密文算子（加减乘除+比较+逻辑运算等）、恶意/诚实模型、隐私计算协议、模运。可以看到最后的整体的通信量75536bytes，发送次数为2563次，非常夸张，直接用自带的digitize，对于mpc非常不友好。这两者间存在着很大差距。安全多方计算中，一般是基于定点数来执行计算的，首先会将浮点型数值转换成定点数后再进行MPC算子计算。，但在SPU中，为了基于MSB的比较能正常工作，定点数取值范围设置为了。

2024-06-21 12:42:36 668 1

原创隐私计算实训营第二期第8讲密态引擎SPU框架介绍

隐语SPU是一个用于隐私保护机器学习（PPML）的高效且用户友好的框架。SPU的全称是SecretFlow-SPU，它旨在通过结合安全多方计算（MPC）技术，为多个实体之间的协同机器学习提供隐私保护。SPU由前端编译器和后端运行时组成，允许用户在不泄露各自私有数据的情况下，共同计算和训练机器学习模型。接下来我们进行详细的介绍。

2024-06-21 10:09:52 429

原创隐私计算实训营第二期第7讲XGB算法与SGB算法开发实践

纵向分隔数据集一般由前置步骤隐私求交得到，使用场景往往是联合建模。各方之间不希望将自己的数据泄露给其他方，但又希望联合建模以得到效果更好的模型。效果好的模型还需要有一定的解释性和较好的训练效率，而树模型正好满足这个特征。隐语提供的纵向树模型算法包括两种：可证安全算法SS-XGB和纵向联邦算法SGB。

2024-06-18 18:06:39 330

原创隐私计算实训营第二期第6讲逻辑回归LR与广义线性模型GLM开发实践

一阶优化器：SGD参数估计方法和二阶优化器：迭代重加权最小二乘法（IRLS）而在隐语中讲二阶优化器与一阶优化器相结合，在训练初期使用二阶优化器进行几轮迭代，然后转为一阶优化器进行快速的收敛。优化器以及任何想要计算的函数都可以被划归为加法和乘法的组合，而在隐语中采用秘密分享(Secret sharing)的方式安全地进行计算。如图可以实现，A，B，C通信三方在不知道对方的秘密值的情况下完成求和（A的秘密值为15，B的秘密值为25，C的秘密值为10，求和为50）乘法中也实现类似的效果。

2024-06-18 16:41:14 451

原创隐私计算实训营第2期第4讲——SecretFlow与Secretnote的安装部署

另一个很详细的操作指南。

2024-06-13 13:42:17 913

原创隐私计算实训营第2期第5讲——基于隐私保护的机器学习算法介绍

以前在利用机器学习的一些算法完成任务时，往往只考虑了完成的效果如何，对数据特征的把握是否恰当，而没有思考是否会因为数据的一些中间处理的过程，产生隐私泄露的问题，这次的课程启发了在这方面的思考。

2024-06-13 10:20:19 221

原创隐私计算实训营第2期第3讲——隐语架构概览

隐语（SecretFlow）是蚂蚁集团开源的可信隐私计算框架，可以划分为不同的层次，下面各层次的特点和相应的目标人群进行介绍，以帮助大家快速了解隐语计算框架。Alice持有集合 X，Bob持有集合Y， Alice和Bob通过执行PSI协议，得到交集结果X ∩ Y ，除交集外不会泄漏交集外的其它信息。桥接上层算法和底层安全协议，保持原生 AI框架体验的同时为用户提供透明的、高性能的、基于安全协议的密态计算能力。屏蔽底层安全计算协议的复杂性，以简单熟悉的SQL 语言界面，提供多方数据密态分析能力。

2024-06-07 17:30:26 1038 1

原创隐私计算实训营第2期第2讲——隐私计算开源助力数据要素流通

其以安全、开放为核心设计理念，支持 MPC、FL、TEE 等主流隐私计算技术，融合产学研生态共创能力，助力隐私计算更广泛应用到AI、数据分析等场景中，解决隐私保护和数据孤岛等行业痛点。数据提供方担心数据流通过程中泄露等安全问题、对于使用方是否合规使用数据存在疑虑、使用方的运维人员也不绝对可信任。以上原因导致了数据提供方不敢加入数据的开放共享，而数据使用方的顾虑也影响着数据价值的变现。数据使用方担心数据来源的合规性，尤其是否得到个人用户的充分授权。具体来说要实现：技术信任体系和完备的信任链。

2024-06-05 10:41:21 846

原创隐私计算实训营第2期第1讲——数据可信流通：从运维信任到技术信任

在外循环中，当数据流通离开持有方的安全域之后，信任基石遭到破坏： ①责任主体不清：在数据流通过程中，相关主题承担什么责任搞不清楚 ②利益诉求不一致：除了持有方，每一个数据流通方，都有一个拷贝数据的冲动，从而进一步利用数据的价值 ③能力层次不齐：现实中有完善的数据保障能力的企业机构不多，只靠法规、合同等对数据安全进行保障是不够的 ④责任链路难追溯：当出现安全问题，责任追溯难度高。④行为有后果（如果对方实现我的预期，那我会更加信任对方，形成正反馈；要解决上述问题，需要实现数据要素可信流通，重构技术信任体系。

2024-06-05 09:50:34 305

原创 InternLm实战营 Opencompass大模型测评实战

上海人工智能实验室科学家团队正式发布了大模型开源开放评测体系 “司南” (OpenCompass2.0)，用于为大语言模型、多模态模型等提供一站式评测服务。开源可复现：提供公平、公开、可复现的大模型评测方案全面的能力维度：五大维度设计，提供 70+ 个数据集约 40 万题的的模型评测方案，全面评估模型能力丰富的模型支持：已支持 20+ HuggingFace 及 API 模型分布式高效评测：一行命令实现任务分割和分布式评测，数小时即可完成千亿模型全量评测。

2024-04-22 16:57:35 1519

原创 InternLM Lagent & AgentLego 智能体应用搭建

Lagent 是一个轻量级开源智能体框架，旨在让用户可以高效地构建基于大语言模型的智能体。同时它也提供了一些典型工具以增强大语言模型的能力。Arxiv 搜索Bing 地图Google 学术搜索Google 搜索交互式 IPython 解释器IPython 解释器PPTPython 解释器下面我们将实现一个调用和风天气 API 的工具以完成实时天气查询的功能。下面我们将实现一个调用 MagicMaker 的 API 以实现图像生成的工具。

2024-04-20 14:03:43 506

原创 InterLm实战营 XTuner 微调LLM

文本单模态文本+图像多模态。

2024-04-18 21:03:34 1391 1

原创 InternLm实战营 LMDeploy 量化部署 LLM-VLM 实践

LMDeploy 由和团队联合开发，是涵盖了 LLM 任务的全套轻量化、部署和服务解决方案。这个强大的工具箱提供以下核心功能。

2024-04-16 15:26:47 1889

原创 InternLM实战营 RAG助手茴香豆

RAG技术，通过检索与用户输入相关的信息片段，并结合外部知识库来生成更准确、更丰富的回答。解决 LLMs 在处理知识密集型任务时可能遇到的挑战, 如幻觉、知识过时和缺乏透明、可追溯的推理过程等。提供更准确的回答、降低推理成本、实现外部记忆。RAG属于LLM模型的优化方法之一，其他优化方法包括Prompt engineering和Fine-tuning。并且虽然其在2020年才由Meta提出，但是其发展十分迅猛，已经产生了Naive GAG,Advanced GAG和Modular RAG等技术路线。

2024-04-09 16:53:42 255

原创 InternLM实战营笔记2

轻松玩转书生·浦语大模型趣味 Demo，官方给出了很详细的课程文档与视频，零基础也基本能上手，后续也希望官方推出一些更深入的课程，对代码进行更多的一些讲解，比如带我们手搓agent。这里附上课程文档，大家可以自己参照，进行操作。

2024-04-04 22:06:59 408

原创【InternLM 实战营】笔记1 书生浦语全链路介绍

并且需要做到，跨平台、高效能、保精度、.产品集成（满足产品的各种用法，包括加密、批处理、reshape，甚至授权，可裁剪）、训练打通（与训练生态打通，最好是训练完成后，简单命令直接导出）。书生浦语构建的一套独有的测评方式，可以全方位地测评大模型的能力，为后续的发展指明方向。（比如，书生浦语就指出，在复杂逻辑推理方面，国产大模型和开源大模型与GPT4还存在着不小差距）当从单纯的处理基于文本的任务的LLM，到能给出一个目标，自己规划，调用工具的智能体，很难想象未来人们的生活会被改变多少。

2024-03-31 21:24:26 144

TianxiaZhu824的博客