联邦学习
文章平均质量分 89
不共享隐私数据的情况下,可以进行协同训练,解决数据孤岛问题
hellompc
学无止境的大数据行业老兵。数据安全,联邦学习的狂热爱好者。希望对这一块领域有兴趣的同学可以一起学习交流
展开
-
隐私计算S2赛季-谁是真正的王者
去年至今,隐私计算大约经历了如火如荼的一年。身为局中人,看穿居中事,道尽居中话,为的无非是让更多的来了解这个比较细分的AI领域。秋天本是硕果累累的丰收季,隐私计算这个行业算是金秋吗?一喜一悲一喜为百花齐放。我所知道在布(挂)局(钩)隐私计算技术的国内科技公司,大约三十来家,国外除了大厂,创业公司为数不多。这是可喜的,因为任何新领域,必须有尽可能多的布道者、参与者、使用者,这对新技术的传播和教育具有多点开花的作用。所以,你可以看到去年谈隐私计算,无人知晓;今年谈及,无人不知。这就是非常积极的行业信号反原创 2020-10-30 15:13:24 · 844 阅读 · 4 评论 -
2020年 我对数据行业的思考 | 特邀专栏
疫情之下,半年已过。2020年,似乎过的特别快,也特别难,各行各业。今天我想回首这半年下来对数据这个行业的一些观点,我看到了一些趋势的变化:数据行业的重心从“获取存储”迁移到“开放共享”;数据应该从“越用越贬值”变成“越用越值钱”;数据已经变成一个企业的资产和负债;数据人才缺口会越来越大……本文叙述的故事较长,娓娓道来,几个关键词汇参考下图。乘风破浪的数据行业数据中心是新基建的重点我一定要先聊下数据中心(IDC),因为今年有几个比较重要的事件:阿里巴巴4月20日,阿里云宣布,未来3.原创 2020-07-03 13:52:37 · 2267 阅读 · 0 评论 -
联邦学习工程实践中的三大难题
“实践是检验真理的唯一标准”,联邦学习谈概念的文章已经很多,今天我们来从实践中聊几个实事求是的问题。联邦学习领域已有众多论文支撑,但在实践中,因为涉及到多学科的交叉,真正能落地应用的平台,少之又少。所以你可以看到已经有三四十家做联邦学习的公司,但是仅有七八家是能真正亮相产品。这应该是一个比较正常的现象,因为联邦学习工程落地所面临的挑战远远比理论复杂。1)断点训练断点训练,是指联邦学习过程中“训练可暂停”,如果发生多方之间的网络异常造成超时,待网络恢复正常后,联邦学习模型可从上次的断点开始继续训练原创 2020-07-02 17:07:28 · 4103 阅读 · 0 评论 -
隐私计算项目评估的“偏见”
如何评估一个项目是不是值得投资,这件事情可能VC最有专业性,本文站在一线工作者的角度,阐述目前隐私计算项目的深浅。(有些东西,一定是老百姓口中说出来的可能更贴近现实)做硬件的拼技术荷兰ASML公司是全球最大的光刻机制造商,也是全球唯一可以提供EUV光刻机的厂商,在全球高端光刻机市场处于垄断地位。简单讲,硬件厂商如果要做成功,核心是技术和工艺,我们国家出现不了Intel、ARM、英伟达这样的企业,原因之一就是技术与工艺的落后。做软件,我觉得不太一样,软件的可复制性比较强。为了说明问题需要,我这里把原创 2020-07-02 17:03:50 · 1101 阅读 · 0 评论 -
一篇可能被联邦学习同行封杀的文章
我很喜欢巴菲特的一句话“当别人疯狂时我恐惧,当别人恐惧时我疯狂”,用于今天的隐私计算这个行业,非常合适。因为,“百花齐放”、五花八门、鱼龙混杂的隐私计算行业初期,确实让我对这个领域有一些担忧。本文我试图从隐私计算软件是否是开源和自主研发的角度来叙述当下的问题。安全已是国家战略作为程序员,我无条件支持开源,因为这是推动技术发展、普惠码农最廉价的方式,没有之一。放到安全计算这个领域,因为它的技术前沿性、未知性,将平台开源无疑是推动这一技术往前发展的有效方式。但是,火热的隐私计算领域让我陷入深深的思考——原创 2020-05-22 15:46:41 · 3040 阅读 · 0 评论 -
疯狂的联邦学习!研究员年薪百万?
码农不容易我这十几年一直在学习,停都停不下来!因为互联网技术发展真的造化弄人:上学那会儿,老师说C++有前途,因为大多数的企业都用它来写服务器程序;过了两年突然原来这个世界是Java的,遂挑灯恶补Spring。然而,技术永远在诞生新的“概念”(就要玩死码农),hadoop又出来糟蹋我们的青春了(所以真正爱学习的程序员哪有时间去蹦迪),“大数据”吞噬了我们的“小时间”。就在最近,很多人又开始慌了...原创 2020-04-27 18:06:41 · 1299 阅读 · 0 评论 -
联邦学习 群雄逐鹿:微众fate与富数fmpc的最新版本实战性能对比
摘要: 最近一直在研究跟联邦学习相关的东西,现在的参考资料也越来越多,热度也十分火热。百度、阿里、腾讯、富数、清华、微众银行、平安科技等多家机构都在不同场景中进行战略布局。这其中主要解决的场景问题,笔者总结如下·个人隐私保护以互联网营销、互联网信贷为例,依赖大量的用户第三方数据补充用户画像、拉新、提升用户活跃度、提高大数据风控能力,然而随着互联网金融数据监管时代的来临,对个人隐私保护,...原创 2020-04-23 13:37:22 · 1721 阅读 · 1 评论 -
“联邦学习”和他的朋友们
最近,我们所从事的行业领域“联邦学习”异常火热,“上云用数赋智”、“数据成为生产要素之一”、“新基建之一的大数据”……我有时候给同行和非同行讲述各行各业都需要用到我们这个技术,来保证企业生产提效过程中使用数据的安全,过程中,他们都被我感动和调动起来了,然后反过来给我提了很多可以应用的场景和潜力,说这个市场未来真的很刚需、很大,最后我也被我自己感动了。“联邦学习”和他的朋友们事实上,我和...原创 2020-04-23 11:29:13 · 1276 阅读 · 2 评论 -
从数据开放共享角度解读中央文件:《关于构建更加完善的要素市场化配置体制机制的意见》
近日,中共中央国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,对推进要素市场化配置改革进行总体部署,明确了要素市场制度建设的方向和重点改革任务。将 “ 数据 ”与土地、劳动力、资本、技术等传统要素并列为要素之一,其中重点强调了做好数据开放共享的同时,加强数据资源整合和安全保护。生产要素,是经济学中的一个基本范畴,主要指的是进行社会生产经营活动时所需要的各种社会资源,是维系国民经...原创 2020-04-16 11:36:15 · 1636 阅读 · 0 评论 -
以武会友,两大主流联邦学习产品体验
如今,AI技术在几乎每个行业中都展现出了自己的优势,无人驾驶汽车,医疗保健,互联网金融等已经深入我们的生活。然而随着大数据和AI技术的逐渐成熟,各机构和组织对数据安全和用户隐私的妥协意识也日益增强,对数据隐私和安全的重视已成为全球性的重要问题。同时欧盟于2018年5月25日发布实施了《通用数据保护条例》 [GDPR], 旨在保护用户的个人隐私和数据安全,中国和美国也正在制定类似的隐私和安全法案。受...原创 2020-03-16 11:29:15 · 2265 阅读 · 0 评论 -
隐私计算和联邦学习发展的举措
建立大数据隐私计算和联邦学习生态联盟联邦学习的新商业模式需要一个商业联盟,联盟包含有 N 个实体,加入联盟的实体,可以像朋友圈一样能够利用各自的数据联合建立模型。联邦数据联盟鼓励各方参与,联盟成员一方面进行垂直领域的合作,另一方面,联盟有明确的在不同场景下的激励机制和权益分享,可以使用区块链技术建立一个让参与各方都满意的一个共识机制来估计大家的贡献,以此奖励对联盟有作用的机构。在生态联盟里...原创 2020-02-05 11:18:27 · 2261 阅读 · 0 评论 -
差分隐私
差分隐私(Differential Privacy)是Dwork[3] 在2006年针对数据库的隐私泄露问题提出的一种新的隐私定义。主要是通过使用随机噪声来确保,查询请求公开可见信息的结果,并不会泄露个体的隐私信息,即提供一种当从统计数据库查询时,最大化数据查询的准确性,同时最大限度减少识别其记录的机会,简单来说,就是保留统计学特征的前提下去除个体特征以保护用户隐私。差分隐私基本原理如下图:当...原创 2020-01-06 15:13:57 · 13070 阅读 · 0 评论 -
区块链产业生态发展情况-亚洲区块链产业生态发展
亚洲的主要国家对区块链技术的应用持积极的态度,一些国家将区块链技术与数字货币作为不同的事物进行监管。韩国对区块链技术的发展较为积极。在2018年,韩国科技与通信部发布《区块链技术发展策略》,计划在2022年前筹集2300亿韩元(约合14亿人民币)的资金,旨在培养一万名区块链人才和一百家公司。目前,包括三星集团在内的韩国大型集团已经在区块链领域展开布局。日本开始严格监管数字货币交易,并继续关...原创 2020-01-07 09:58:38 · 310 阅读 · 0 评论 -
隐私与安全
联邦学习的根本目标是为了保障数据信息安全,但是在不同的场景,不同的主体对于隐私和数据安全的要求或者定义不相同。因此在联邦学习中,参与方们在进行隐私保护下的机器学习之前需要定义数据安全的概念,达成共识。在联邦学习中,我们有以下4个假设:1. 所有参与方们都是诚实但好奇的。所有的参与方们会遵循联邦学习的数据保密规则,但同时他们也会利用所得到的所有信息去推测其他参与方的数据信息。2. 在参与...原创 2020-01-07 09:59:22 · 1513 阅读 · 0 评论 -
用户视图与功能视图之间关系
联邦学习角色和活动与功能组件之间的逻辑映射关系可用于:a) 明确信息流或其他类型互操作的程度;b) 确保指定的质量,如安全或服务水平等。联邦学习角色、组件与活动 用户 参与方 协调方 服务层 使用联邦学习服务 发现数据元信息 发现服务能力 提...原创 2020-01-07 09:59:35 · 1914 阅读 · 0 评论 -
运营及其他功能组件
运营功能组件包括:a) 服务目录:提供联邦学习系统的所有服务列表;b) 策略管理:提供联邦学习服务的定义、更新和访问策略及对策略的管理;c) 异常和问题管理:提供事故和问题报告的捕获能力,并通过分析管理报告;d) 服务交付管理:提供服务交付的管理功能,如交付的功能接口、SLA 等。系统安全功能组件系统安全功能组件主要为联邦学习各功能组件层、层间交互以及各参与方交互提供保密性...原创 2020-01-07 09:59:48 · 694 阅读 · 1 评论 -
基础架构层组件
计算组件计算组件包括:a) 支持任务在单机上执行,宜支持分布式任务执行;b) 应具备明确的任务元信息管理方案,确保联邦学习活动正常运行;c) 宜具备一定容错性,如任务的失败与恢复功能;d) 应提供 API 具备联邦学习算法开发能力。存储组件存储组件功能包括:a) 宜支持 Key-Value 存储;b) 支持其他存储系统到存储组件的数据导入与导出;c) 支持数...原创 2020-01-07 10:00:03 · 674 阅读 · 0 评论 -
算子层组件
聚合算子聚合算子应根据聚合策略、加密方式进行定制。常见的联邦学习聚合算子定制方法是以随机数为基础,结合多方安全计算协议进行变化。激活函数激活函数应包括但不限于:a) 传统机器学习的激活函数,如 sigmoid、softmax、tanh、softsign 等;b) 联邦学习的联合激活函数,如基于半同态加密的泰勒展开 sigmoid、基于秘密共享的 ReLU等。正则化处理器...原创 2020-01-07 10:00:18 · 530 阅读 · 2 评论 -
算法层组件
样本对齐组件样本对齐组件通常用于纵向联邦学习,要求应包括:a) 各方在不公开各自数据的前提下确认数据源的重叠样本;b) 不暴露非重叠样本。特征对齐组件特征对齐组件通常用于横向联邦学习,要求应包括:a) 各方在不公开各自数据的前提下确认数据源的重叠特征属性;b) 不暴露非重叠特征属性。联合特征工程组件联合特征工程的功能应包括:a) 联合特征使用方案;b) 联合...原创 2020-01-09 17:29:32 · 768 阅读 · 0 评论 -
服务层组件
用户服务组件用户服务组件支持联邦学习服务用户访问和使用服务,包括:a) 用户界面:提供联邦学习服务客户与服务进行交互的功能,如命令行界面、图形用户接口和API等;b) 任务提交:提供将联邦学习服务客户的需求(如建模、预测等)提交到联邦学习网络中的功能;c) 导入/导出工具:提供将数据、模型等导入/导出联邦学习网络的功能;d) 数据发布与发现:联邦学习的参与方可以发布本方的数据供...原创 2020-01-09 17:29:45 · 565 阅读 · 0 评论 -
功能视图的组成
功能视图是构建联邦学习系统所需功能的技术中立的视图。功能视图描述了支持联邦学习活动所必需功能的分布,定义了功能之间的依赖关系。功能视图涵盖的联邦学习内容如图,包括:功能组件、功能层、跨层功能。功能组件是参与某一活动所需的、能实现的功能构件,联邦学习系统能力由一组已实现的功能组件定义。功能层是一组提供类似功能或服务于共同目标的功能组件的集合。跨层功能提供跨越多个功能层次能力的功能组件。联邦学...原创 2020-01-09 17:29:58 · 2948 阅读 · 0 评论 -
安全沙箱/安全屋
安全屋主要是通过物理方式对数据的所有权和使用权进行分离,通常使用中心化和分布式相结合的混合架构,即各个数据提供方按照主控平台的接入规范统一接入平台,而所有管理权限由主控平台统一提供,各个参与的数据源方提供数据区的维护能力,通过这种方式来确保数据的整个流通过程安全可控的一种技术方案。目前市场的应用案例包括有UCloud的安全屋产品,如下图所示:其中,集中式的主控区功能包括:统一的数据...原创 2020-01-06 15:13:15 · 2296 阅读 · 0 评论 -
TEE可信计算环境
可信计算(Trusted Computing)是指系统提供的计算服务是可信赖的,是一种运算与防护并存的信息安全技术,保证了计算的行为与预期一致,同时保证全程是可检测可监控。为实现计算行为的信任,通常需要证明平台的安全属性,保证部分关键计算不受到干扰,标识计算平台的身份,对外提供自己行为和环境的证据,以及对用户身份的认证。可信计算的其中一种机制,是在硬件平台引入安全芯片架构,通过其提供的安全特征...原创 2020-01-06 11:03:42 · 3723 阅读 · 0 评论 -
多方安全计算-零知识证明
零知识证明(Zero-Knowledge Proof),是由S.Goldwasser、S.Micali及C.Rackoff在20世纪80年代初提出的。它指的是证明者能够在不向验证者提供任何有用的信息的情况下,使验证者相信某个论断是正确的。零知识证明实质上是一种涉及两方或更多方的协议,即两方或更多方完成一项任务所需采取的一系列步骤。证明者向验证者证明并使其相信自己知道或拥有某一消息,但证明过程不能向...原创 2020-01-02 14:05:09 · 1865 阅读 · 0 评论 -
联邦学习角色视图
联邦学习生态中,包含三种角色:用户,联邦学习参与方,协调方。联邦学习用户联邦学习用户可以是自然人或代表该自然人的实体,是使用服务的一方。在联邦学习参考架构中,用户还被细分为3个子角色:联邦学习服务用户、联邦学习业务管理者、联邦学习服务集成者。他们有不同的活动,详见图联邦学习参与方联邦学习参与方主要参与联邦学习计算,并对其他参与方或用户提供服务。其子角色包括计算参与者和服务提供者...原创 2020-01-02 13:59:31 · 840 阅读 · 0 评论 -
联邦学习的过程
联邦学习的过程分为自治和联合两部分。自治的部分:首先,两个或两个以上的的参与方们在各自终端安装初始化的模型,每个参与方拥有相同的模型,之后参与方们可以使用当地的数据训练模型。由于参与方们拥有不同的数据,最终终端所训练的模型也拥有不同的模型参数。联合的部分:不同的模型参数将同时上传到云端,云端将完成模型参数的聚合与更新,并且将更新好的参数返回到参与方的终端,各个终端开始下一次的迭代。以上的程...原创 2020-01-02 13:58:53 · 7469 阅读 · 0 评论 -
什么是联邦学习
今天来学习下最近比较博眼球的联邦学习。应该有很多人听过但是始终都没懂啥是联邦学习。很多同学应该也从网上搜集一些相关资料来学习,大概知道联邦学习的作用主要是用来解决数据孤岛,那他又是如何来解决数据孤岛问题的?本系列专栏将从多维度介绍联邦学习,包括背景、概念、技术原理等。联邦学习的概念联邦机器学习(Federated machine learning/Federated Learning),又...原创 2020-01-02 13:57:29 · 4815 阅读 · 0 评论