聚焦大模型！隐语技术团队研究成果被 ICASSP 与 ICLR 两大顶会收录(1)

最新推荐文章于 2024-06-12 22:18:06 发布

2401_84301853

最新推荐文章于 2024-06-12 22:18:06 发布

阅读量596

点赞数 20

分类专栏：程序员文章标签：网络安全学习面试

本文链接：https://blog.csdn.net/2401_84301853/article/details/138645629

版权

程序员专栏收录该内容

161 篇文章 0 订阅

订阅专栏

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新网络安全全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上网络安全知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以点击这里获取

“隐语”是开源的可信隐私计算框架，内置 MPC、TEE、同态等多种密态计算虚拟设备供灵活选择，提供丰富的联邦学习算法和差分隐私机制

开源项目

github.com/secretflow

gitee.com/secretflow

**导语：2023年，「大模型」**走到了聚光灯下，技术圈的“头部玩家”们纷纷入场，其潜能和价值正在被不断挖掘与释放。与此同时，大模型相关的隐私安全问题也受到了越来越多关注。隐语技术团队聚焦大模型推理和训练过程的隐私安全问题展开研究，目前所提出的分布式训练框架能保证在联邦训练过程中任何一方都无法在未授权的情况下拿到通信(隐私)的参数，从而达到保护各方数据和模型安全的目的，未来也将继续探索新的联邦大模型训练框架和策略。

01

论文标题：《A Fast, Performant, Secure Distributed Training Feamework For LLM 》（一个针对大模型的快速，高性能，安全的分布式训练框架）

论文作者：黄炜(蚂蚁集团)，王莹桂(蚂蚁集团)，程安达(蚂蚁集团)，周爱辉(蚂蚁集团)，余超凡(蚂蚁集团)，王磊(蚂蚁集团)

收录顶会 – ICASSP
2024 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2024)将于2024年4月14日在韩国首尔召开。本次共投稿 5796 篇论文，接收率为 45%。蚂蚁集团隐私计算部隐语团队关于安全高效的大模型联邦(分布式)训练架构的论文被接收。

关键词：Federated LLM, Security, TEE, Lightweight encryption

论文摘要
大模型对不同任务具有强大的理解和解释能力，对于数据也拥有很强的记忆和处理能力。这也标志着无论是数据还是模型本身的参数都是大模型拥有者的重要财产，即其既不想模型参数泄漏也不想数据泄漏。分布式（联邦）大语言模型（LLM）是使用分散数据共同训练特定领域大语言模型的重要方法。然而，恶意窃取服务器或客户端的模型参数和数据已经成为亟待解决的紧迫问题，所以需要一个新颖的分布式大模型训练框架，使得任何一方都无法窃取各个客户端的数据，以及无法拿到微调的参数。
为了解决上述问题，在本文中，我们提出了一种基于模型切片的安全分布式大型语言模型。在这种情况下，我们在客户端和服务器端都部署了可信执行环境（TEE），并将微调结构（LoRA或P-tuning v2）放入TEE中。然后，通过轻量级加密 (One Time Pad) 在TEE和常规环境 (GPU) 中执行安全通信。
为了进一步降低设备成本以及提高模型性能和准确性，我们提出了一种分割微调方案。具体而言，我们按层切分大语言模型，并将后续层放置在服务器端的 TEE 中（客户端不需要 TEE）。然后，我们提出了稀疏参数微调（SPF）与 LoRA 部分结合起来，以提高下游任务的准确性。大量实验表明，我们的方法在保证安全性的同时也保证了准确性。

论文链接：https://arxiv.org/abs/2401.09796

02

论文标题：《Enhanced Face Recognition using Intra-class Incoherence Constraint》（利用类内不一致性约束增强的人脸识别技术）

论文作者：黄源清（蚂蚁集团），王莹桂（蚂蚁集团），杨乐(坎特伯雷大学)，王磊（蚂蚁集团）

收录顶会–ICLR
国际表征学习大会“ICLR”（International Conference on Learning Representations）是机器学习领域的顶级学术会议之一。ICLR 2024 将于5月7日至5月11日在奥地利维也纳召开。本次会议共收到7262篇投稿，总体接受率约为 31%。蚂蚁集团隐私计算部隐语团队关于通过增强表征学习能力提升人脸识别精度的论文被接受为 spotlight（被接收为 spotlight 的论文占5%）。

关键词：Representation learning， Face recognition, Intra-class Incoherence

论文摘要
当前的人脸识别（FR）算法已经达到了高度精确的水准，因此要实现进一步的提升变得越来越具有挑战性。尽管现有的FR算法主要集中在优化边界和损失函数上，但对特征表征空间的探索却受到了有限的关注。因此，本文旨在从特征表征空间的角度来提高人脸识别的性能。首先，我们考虑了两个表现出明显性能差异的人脸识别模型，其中一个模型相比另一个展现出了更高的识别准确率。我们在优势模型的特征上沿着劣势模型的特征作正交分解，获得了两个子特征。令人惊讶的是，我们发现垂直于劣势模型的子特征仍然具有一定程度的识别能力。我们调整了子特征的模，并通过向量加法重新组合它们。实验表明，这种重新组合很可能有助于提升面部特征表示，甚至优于原始优势模型的特征。

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以点击这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**

2401_84301853

关注

20
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
聚焦大模型！隐语技术团队研究成果被 ICASSP 与 ICLR 两大顶会收录(1)

大模型对不同任务具有强大的理解和解释能力，对于数据也拥有很强的记忆和处理能力。这也标志着无论是数据还是模型本身的参数都是大模型拥有者的重要财产，即其既不想模型参数泄漏也不想数据泄漏。分布式（联邦）大语言模型（LLM）是使用分散数据共同训练特定领域大语言模型的重要方法。然而，恶意窃取服务器或客户端的模型参数和数据已经成为亟待解决的紧迫问题，所以需要一个新颖的分布式大模型训练框架，使得任何一方都无法窃取各个客户端的数据，以及无法拿到微调的参数。
复制链接

扫一扫