• 博客(41)
  • 收藏
  • 关注

原创 联邦学习工程实践中的三大难题

“实践是检验真理的唯一标准”,联邦学习谈概念的文章已经很多,今天我们来从实践中聊几个实事求是的问题。联邦学习领域已有众多论文支撑,但在实践中,因为涉及到多学科的交叉,真正能落地应用的平台,少之又少。所以你可以看到已经有三四十家做联邦学习的公司,但是仅有七八家是能真正亮相产品。这应该是一个比较正常的现象,因为联邦学习工程落地所面临的挑战远远比理论复杂。1)断点训练断点训练,是指联邦学习过程中“训练可暂停”,如果发生多方之间的网络异常造成超时,待网络恢复正常后,联邦学习模型可从上次的断点开始继续训练

2020-07-02 17:07:28 4102

原创 隐私计算项目评估的“偏见”

如何评估一个项目是不是值得投资,这件事情可能VC最有专业性,本文站在一线工作者的角度,阐述目前隐私计算项目的深浅。(有些东西,一定是老百姓口中说出来的可能更贴近现实)做硬件的拼技术荷兰ASML公司是全球最大的光刻机制造商,也是全球唯一可以提供EUV光刻机的厂商,在全球高端光刻机市场处于垄断地位。简单讲,硬件厂商如果要做成功,核心是技术和工艺,我们国家出现不了Intel、ARM、英伟达这样的企业,原因之一就是技术与工艺的落后。做软件,我觉得不太一样,软件的可复制性比较强。为了说明问题需要,我这里把

2020-07-02 17:03:50 1097

原创 “联邦学习”和他的朋友们

最近,我们所从事的行业领域“联邦学习”异常火热,“上云用数赋智”、“数据成为生产要素之一”、“新基建之一的大数据”……我有时候给同行和非同行讲述各行各业都需要用到我们这个技术,来保证企业生产提效过程中使用数据的安全,过程中,他们都被我感动和调动起来了,然后反过来给我提了很多可以应用的场景和潜力,说这个市场未来真的很刚需、很大,最后我也被我自己感动了。“联邦学习”和他的朋友们事实上,我和...

2020-04-23 11:29:13 1275 2

原创 运营及其他功能组件

运营功能组件包括:a) 服务目录:提供联邦学习系统的所有服务列表;b) 策略管理:提供联邦学习服务的定义、更新和访问策略及对策略的管理;c) 异常和问题管理:提供事故和问题报告的捕获能力,并通过分析管理报告;d) 服务交付管理:提供服务交付的管理功能,如交付的功能接口、SLA 等。系统安全功能组件系统安全功能组件主要为联邦学习各功能组件层、层间交互以及各参与方交互提供保密性...

2020-01-07 09:59:48 693 1

原创 联邦学习的过程

联邦学习的过程分为自治和联合两部分。自治的部分:首先,两个或两个以上的的参与方们在各自终端安装初始化的模型,每个参与方拥有相同的模型,之后参与方们可以使用当地的数据训练模型。由于参与方们拥有不同的数据,最终终端所训练的模型也拥有不同的模型参数。联合的部分:不同的模型参数将同时上传到云端,云端将完成模型参数的聚合与更新,并且将更新好的参数返回到参与方的终端,各个终端开始下一次的迭代。以上的程...

2020-01-02 13:58:53 7458

原创 什么是联邦学习

今天来学习下最近比较博眼球的联邦学习。应该有很多人听过但是始终都没懂啥是联邦学习。很多同学应该也从网上搜集一些相关资料来学习,大概知道联邦学习的作用主要是用来解决数据孤岛,那他又是如何来解决数据孤岛问题的?本系列专栏将从多维度介绍联邦学习,包括背景、概念、技术原理等。联邦学习的概念联邦机器学习(Federated machine learning/Federated Learning),又...

2020-01-02 13:57:29 4809

原创 隐私计算S2赛季-谁是真正的王者

去年至今,隐私计算大约经历了如火如荼的一年。身为局中人,看穿居中事,道尽居中话,为的无非是让更多的来了解这个比较细分的AI领域。秋天本是硕果累累的丰收季,隐私计算这个行业算是金秋吗?一喜一悲一喜为百花齐放。我所知道在布(挂)局(钩)隐私计算技术的国内科技公司,大约三十来家,国外除了大厂,创业公司为数不多。这是可喜的,因为任何新领域,必须有尽可能多的布道者、参与者、使用者,这对新技术的传播和教育具有多点开花的作用。所以,你可以看到去年谈隐私计算,无人知晓;今年谈及,无人不知。这就是非常积极的行业信号反

2020-10-30 15:13:24 841 4

原创 2020年 我对数据行业的思考 | 特邀专栏

疫情之下,半年已过。2020年,似乎过的特别快,也特别难,各行各业。今天我想回首这半年下来对数据这个行业的一些观点,我看到了一些趋势的变化:数据行业的重心从“获取存储”迁移到“开放共享”;数据应该从“越用越贬值”变成“越用越值钱”;数据已经变成一个企业的资产和负债;数据人才缺口会越来越大……本文叙述的故事较长,娓娓道来,几个关键词汇参考下图。乘风破浪的数据行业数据中心是新基建的重点我一定要先聊下数据中心(IDC),因为今年有几个比较重要的事件:阿里巴巴4月20日,阿里云宣布,未来3.

2020-07-03 13:52:37 2265

原创 一篇可能被联邦学习同行封杀的文章

我很喜欢巴菲特的一句话“当别人疯狂时我恐惧,当别人恐惧时我疯狂”,用于今天的隐私计算这个行业,非常合适。因为,“百花齐放”、五花八门、鱼龙混杂的隐私计算行业初期,确实让我对这个领域有一些担忧。本文我试图从隐私计算软件是否是开源和自主研发的角度来叙述当下的问题。安全已是国家战略作为程序员,我无条件支持开源,因为这是推动技术发展、普惠码农最廉价的方式,没有之一。放到安全计算这个领域,因为它的技术前沿性、未知性,将平台开源无疑是推动这一技术往前发展的有效方式。但是,火热的隐私计算领域让我陷入深深的思考——

2020-05-22 15:46:41 3039

原创 疯狂的联邦学习!研究员年薪百万?

码农不容易我这十几年一直在学习,停都停不下来!因为互联网技术发展真的造化弄人:上学那会儿,老师说C++有前途,因为大多数的企业都用它来写服务器程序;过了两年突然原来这个世界是Java的,遂挑灯恶补Spring。然而,技术永远在诞生新的“概念”(就要玩死码农),hadoop又出来糟蹋我们的青春了(所以真正爱学习的程序员哪有时间去蹦迪),“大数据”吞噬了我们的“小时间”。就在最近,很多人又开始慌了...

2020-04-27 18:06:41 1297

原创 联邦学习 群雄逐鹿:微众fate与富数fmpc的最新版本实战性能对比

摘要: 最近一直在研究跟联邦学习相关的东西,现在的参考资料也越来越多,热度也十分火热。百度、阿里、腾讯、富数、清华、微众银行、平安科技等多家机构都在不同场景中进行战略布局。这其中主要解决的场景问题,笔者总结如下·个人隐私保护以互联网营销、互联网信贷为例,依赖大量的用户第三方数据补充用户画像、拉新、提升用户活跃度、提高大数据风控能力,然而随着互联网金融数据监管时代的来临,对个人隐私保护,...

2020-04-23 13:37:22 1717 1

原创 从数据开放共享角度解读中央文件:《关于构建更加完善的要素市场化配置体制机制的意见》

近日,中共中央国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,对推进要素市场化配置改革进行总体部署,明确了要素市场制度建设的方向和重点改革任务。将 “ 数据 ”与土地、劳动力、资本、技术等传统要素并列为要素之一,其中重点强调了做好数据开放共享的同时,加强数据资源整合和安全保护。生产要素,是经济学中的一个基本范畴,主要指的是进行社会生产经营活动时所需要的各种社会资源,是维系国民经...

2020-04-16 11:36:15 1636

原创 以武会友,两大主流联邦学习产品体验

如今,AI技术在几乎每个行业中都展现出了自己的优势,无人驾驶汽车,医疗保健,互联网金融等已经深入我们的生活。然而随着大数据和AI技术的逐渐成熟,各机构和组织对数据安全和用户隐私的妥协意识也日益增强,对数据隐私和安全的重视已成为全球性的重要问题。同时欧盟于2018年5月25日发布实施了《通用数据保护条例》 [GDPR], 旨在保护用户的个人隐私和数据安全,中国和美国也正在制定类似的隐私和安全法案。受...

2020-03-16 11:29:15 2260

原创 隐私计算和联邦学习发展的举措

建立大数据隐私计算和联邦学习生态联盟联邦学习的新商业模式需要一个商业联盟,联盟包含有 N 个实体,加入联盟的实体,可以像朋友圈一样能够利用各自的数据联合建立模型。联邦数据联盟鼓励各方参与,联盟成员一方面进行垂直领域的合作,另一方面,联盟有明确的在不同场景下的激励机制和权益分享,可以使用区块链技术建立一个让参与各方都满意的一个共识机制来估计大家的贡献,以此奖励对联盟有作用的机构。在生态联盟里...

2020-02-05 11:18:27 2253

原创 Linux 系列之常用命令记录整理

Linux一些命令可以在开发或调试过程中起到很好的帮助作用,有些可以帮助了解或优化我们的程序,有些可以帮我们定位疑难问题。本篇博客将介绍工作中常用的linux命令,记得收藏,博客不定时更新 命令 功能说明 线上查询及帮助命令 (2 个) man 查看命令帮助,命令的词典,更复杂的还有 info,但不常用...

2020-01-16 11:07:46 260

原创 功能视图的组成

功能视图是构建联邦学习系统所需功能的技术中立的视图。功能视图描述了支持联邦学习活动所必需功能的分布,定义了功能之间的依赖关系。功能视图涵盖的联邦学习内容如图,包括:功能组件、功能层、跨层功能。功能组件是参与某一活动所需的、能实现的功能构件,联邦学习系统能力由一组已实现的功能组件定义。功能层是一组提供类似功能或服务于共同目标的功能组件的集合。跨层功能提供跨越多个功能层次能力的功能组件。联邦学...

2020-01-09 17:29:58 2940

原创 服务层组件

用户服务组件用户服务组件支持联邦学习服务用户访问和使用服务,包括:a) 用户界面:提供联邦学习服务客户与服务进行交互的功能,如命令行界面、图形用户接口和API等;b) 任务提交:提供将联邦学习服务客户的需求(如建模、预测等)提交到联邦学习网络中的功能;c) 导入/导出工具:提供将数据、模型等导入/导出联邦学习网络的功能;d) 数据发布与发现:联邦学习的参与方可以发布本方的数据供...

2020-01-09 17:29:45 564

原创 算法层组件

样本对齐组件样本对齐组件通常用于纵向联邦学习,要求应包括:a) 各方在不公开各自数据的前提下确认数据源的重叠样本;b) 不暴露非重叠样本。特征对齐组件特征对齐组件通常用于横向联邦学习,要求应包括:a) 各方在不公开各自数据的前提下确认数据源的重叠特征属性;b) 不暴露非重叠特征属性。联合特征工程组件联合特征工程的功能应包括:a) 联合特征使用方案;b) 联合...

2020-01-09 17:29:32 768

原创 算子层组件

聚合算子聚合算子应根据聚合策略、加密方式进行定制。常见的联邦学习聚合算子定制方法是以随机数为基础,结合多方安全计算协议进行变化。激活函数激活函数应包括但不限于:a) 传统机器学习的激活函数,如 sigmoid、softmax、tanh、softsign 等;b) 联邦学习的联合激活函数,如基于半同态加密的泰勒展开 sigmoid、基于秘密共享的 ReLU等。正则化处理器...

2020-01-07 10:00:18 528 2

原创 基础架构层组件

计算组件计算组件包括:a) 支持任务在单机上执行,宜支持分布式任务执行;b) 应具备明确的任务元信息管理方案,确保联邦学习活动正常运行;c) 宜具备一定容错性,如任务的失败与恢复功能;d) 应提供 API 具备联邦学习算法开发能力。存储组件存储组件功能包括:a) 宜支持 Key-Value 存储;b) 支持其他存储系统到存储组件的数据导入与导出;c) 支持数...

2020-01-07 10:00:03 672

原创 用户视图与功能视图之间关系

联邦学习角色和活动与功能组件之间的逻辑映射关系可用于:a) 明确信息流或其他类型互操作的程度;b) 确保指定的质量,如安全或服务水平等。联邦学习角色、组件与活动 用户 参与方 协调方 服务层 使用联邦学习服务 发现数据元信息 发现服务能力 提...

2020-01-07 09:59:35 1912

原创 隐私与安全

联邦学习的根本目标是为了保障数据信息安全,但是在不同的场景,不同的主体对于隐私和数据安全的要求或者定义不相同。因此在联邦学习中,参与方们在进行隐私保护下的机器学习之前需要定义数据安全的概念,达成共识。在联邦学习中,我们有以下4个假设:1. 所有参与方们都是诚实但好奇的。所有的参与方们会遵循联邦学习的数据保密规则,但同时他们也会利用所得到的所有信息去推测其他参与方的数据信息。2. 在参与...

2020-01-07 09:59:22 1512

原创 区块链产业生态发展情况-美国区块链产业生态发展

美国政府一直在关注区块链技术的发展,无论是在联邦政府层面还是州政府层面都有相关的研究进展。2018年,美国国会、商务部国家标准与技术研究院(NIST)等部门先后发布了多份区块链报告,在认可区块链技术潜力的同时,也指出了在监管等方面的挑战。在美国的《2018年国防授权法案》中,要求国防部长牵头对区块链技术进行安全评估。美国参众两院委员会于2019年7月份发起了Facebook提出的加密货币libra...

2020-01-07 09:59:09 1612

原创 区块链产业生态发展情况-欧盟区块链产业生态发展

欧盟对区块链技术的应用持积极的态度。早在2018年4月,22个欧盟国家签署了建立欧洲区块链联盟的协议,该联盟的目标是成为交流区块链技术和监管经验等专业知识的平台,为启动欧盟范围内的区块链技术应用做好准备。欧盟数字经济和社会委员玛丽娅·加布里尔认为,未来所有公共服务都会用到区块链技术,这种技术能够更好地保护个人数据和创造新的商业机会和公共服务。欧盟议会则认为欧盟有机会成为区块链的领军者。在201...

2020-01-07 09:58:52 675

原创 区块链产业生态发展情况-亚洲区块链产业生态发展

亚洲的主要国家对区块链技术的应用持积极的态度,一些国家将区块链技术与数字货币作为不同的事物进行监管。韩国对区块链技术的发展较为积极。在2018年,韩国科技与通信部发布《区块链技术发展策略》,计划在2022年前筹集2300亿韩元(约合14亿人民币)的资金,旨在培养一万名区块链人才和一百家公司。目前,包括三星集团在内的韩国大型集团已经在区块链领域展开布局。日本开始严格监管数字货币交易,并继续关...

2020-01-07 09:58:38 305

原创 区块链产业生态发展情况-中国区块链产业生态发展

2019以来中国区块链产业处于蓬勃发展期,从中央到地方有关区块链发展的指导意见和扶持政策不断发布。据不完全统计,今年上半年全国共有超过23个省市发布了112条涉及区块链的政策信息,多省市把区块链纳入发展数字经济的规划中,大力推进区块链应用落地,与实体经济融合,同时也对打着区块链旗号进行非法活动的犯罪行为进行监管。产业界不断推进区块链落地应用,在金融、保险、食品安全、供应链管理、航运信息、慈善公...

2020-01-07 09:58:30 2566

原创 区块链产业协同生态发展

产业生态发展迅速,产业链分布广泛随着区块链技术的不断深入,区块链产业基础越来越好,理论技术研究和区块链底层平台水平处于较高层次,众多的应用场景为区块链技术的应用提供了良好的基础。在政府的引导和支持下,产业生态发展迅速。从产业链分布来看,涵盖了理论技术研究、区块链底层基础设施、技术服务、区块链应用以及产业周边等整条产业链环节。,极其丰富的应用场景为区块链快速落地提供了良好基础。在理论技术研究...

2020-01-07 09:58:06 1077

原创 L多样化

为了解决同质性攻击和背景知识攻击所带来的隐私泄露,Machanavajjhala等人提出了L-多样性(l-diversity)模型。简单来说,就是在公开的数据中,每一个等价类里的敏感属性必须具有多样性,即L-多样性保证每一个等价类里,敏感属性至少有L个不同的取值,通过这样L-多样性使得攻击者最多只能以1/L的概率确认某个体的敏感信息,从而保证用户的隐私信息不能通过背景知识,同质知识等方法推断出来。...

2020-01-06 15:17:40 4918

原创 K匿名算法

在大数据的时代,很多机构需要面向公众或研究者发布其收集的数据,例如医疗数据,地区政务数据等。这些数据中往往包含了个人用户或企业用户的隐私数据,这要求发布机构在发布前对数据进行脱敏处理。K匿名算法是比较通用的一种数据脱敏方法。举例来说,如下图是两张表,一张是用户的会员注册信息表,一张是对外发布的医疗信息表。第二张医疗信息表中,虽然已经把用户姓名,身份证号等个人关联信息抹去,但如果直接...

2020-01-06 15:17:21 10836 2

原创 差分隐私

差分隐私(Differential Privacy)是Dwork[3] 在2006年针对数据库的隐私泄露问题提出的一种新的隐私定义。主要是通过使用随机噪声来确保,查询请求公开可见信息的结果,并不会泄露个体的隐私信息,即提供一种当从统计数据库查询时,最大化数据查询的准确性,同时最大限度减少识别其记录的机会,简单来说,就是保留统计学特征的前提下去除个体特征以保护用户隐私。差分隐私基本原理如下图:当...

2020-01-06 15:13:57 13063

原创 安全沙箱/安全屋

安全屋主要是通过物理方式对数据的所有权和使用权进行分离,通常使用中心化和分布式相结合的混合架构,即各个数据提供方按照主控平台的接入规范统一接入平台,而所有管理权限由主控平台统一提供,各个参与的数据源方提供数据区的维护能力,通过这种方式来确保数据的整个流通过程安全可控的一种技术方案。目前市场的应用案例包括有UCloud的安全屋产品,如下图所示:其中,集中式的主控区功能包括:统一的数据...

2020-01-06 15:13:15 2294

原创 TEE可信计算环境

可信计算(Trusted Computing)是指系统提供的计算服务是可信赖的,是一种运算与防护并存的信息安全技术,保证了计算的行为与预期一致,同时保证全程是可检测可监控。为实现计算行为的信任,通常需要证明平台的安全属性,保证部分关键计算不受到干扰,标识计算平台的身份,对外提供自己行为和环境的证据,以及对用户身份的认证。可信计算的其中一种机制,是在硬件平台引入安全芯片架构,通过其提供的安全特征...

2020-01-06 11:03:42 3717

原创 多方安全计算-隐私信息检索(PIR)

隐私信息检索(Private Information Retrieval - PIR)技术是由Chor B等在1955年提出解决保护用户查询隐私的方案。主要目的是,保证查询用户在向服务器上的数据库提交查询请求,在用户查询隐私信息不被泄漏的条件下完成查询,即在过程中服务器不知道用户具体查询信息及检索出的数据项。基于隐私信息检索(PIR)的隐私保护方法案例:假定数据库是一个由n位二进制数组成的字符...

2020-01-06 10:34:28 8350 6

原创 区块链技术及应用发展概述

区块链核心技术发展近年来,产业界、学术界以应用需求为导向,不断加大对区块链核心技术的研究力度,涉及到安全与隐私保护、系统性能、链与链之间交互以及智能合约等技术发展活跃。这些核心技术的研究与突破,能够很好的满足应用场景需求,为区块链落地应用提供了坚实的基础。零知识证明零知识证明是一种基于概率的验证方式,是一方(证明方)可以向另一方(验证方)证明某事是真实的方法,除了这一具体陈述是真实的事...

2020-01-02 14:05:21 1956

原创 多方安全计算-零知识证明

零知识证明(Zero-Knowledge Proof),是由S.Goldwasser、S.Micali及C.Rackoff在20世纪80年代初提出的。它指的是证明者能够在不向验证者提供任何有用的信息的情况下,使验证者相信某个论断是正确的。零知识证明实质上是一种涉及两方或更多方的协议,即两方或更多方完成一项任务所需采取的一系列步骤。证明者向验证者证明并使其相信自己知道或拥有某一消息,但证明过程不能向...

2020-01-02 14:05:09 1862

原创 多方安全计算-混淆电路

混淆电路(Garbled Circuit)是姚期智教授[4]在80年代提出的安全计算概念。通过布尔电路的观点构造安全函数计算,达到参与者可以针对某个数值来计算答案,而不需要知道他们在计算式中输入的具体数字。在这里关键词是“电路”,实际上所有可计算问题都可以转换为各个不同的电路,例如加法电路,比较电路,乘法电路等。而电路是由一个个门(gate)组成,例如与门,非门,或门,与非门等。混淆电路里...

2020-01-02 14:04:39 4373 1

原创 多方安全计算-不经意间传输

不经意传输(Oblivious Transfer - OT)最早在1981年被 Michael O. Rabin提出,之后被广泛应用于多方安全计算等领域。在Rabin [1] 的OT协议中,发送者Alice发送一个信息m给接收者Bob,接收者Bob以1/2的概率接受信息m。所以在协议交互的结束的时候,发送者Alice并不知道Bob是否接受了消息,而接收者Bob能确信地知道他是否得到了信息m,从...

2020-01-02 14:03:59 3018

原创 多方安全计算-秘密共享

秘密共享秘密共享(Secret-Sharing) 是现代密码学领域的一个重要分支,是信息安全和数据保密中的重要手段,也是多方安全计算和联邦学习等领域的一个基础应用技术。实际应用中,在密钥管理,数字签名,身份认证,多方安全计算,纠错码,银行网络管理以及数据安全等方面都有重要作用。秘密共享是在一组参与者中共享秘密的技术,它主要用于保护重要信息,防止信息被丢失、被破坏、被篡改。它源于经典密码理论...

2020-01-02 14:03:40 6227

原创 「少林派」多方安全计算

秘密共享秘密共享(Secret-Sharing) 是现代密码学领域的一个重要分支,是信息安全和数据保密中的重要手段,也是多方安全计算和联邦学习等领域的一个基础应用技术。实际应用中,在密钥管理,数字签名,身份认证,多方安全计算,纠错码,银行网络管理以及数据安全等方面都有重要作用。秘密共享是在一组参与者中共享秘密的技术,它主要用于保护重要信息,防止信息被丢失、被破坏、被篡改。它源于经典密码理论...

2020-01-02 14:03:25 359

原创 隐私计算分类

在大数据时代中,海量的数据的交叉计算和人工智能的发展为各行各业提供了更好的支持,但这些被使用的数据往往包含用户的隐私数据,或企业/机构的内部数据。这些数据由于数据安全和隐私的考虑,往往是不对外开发,例如政府数据由于政策保密性完全不能对外公布,运营商、互联网公司收集到的客户数据,也不能透露给第三者,因此形成了一个个数据孤岛,数据之间不能互通,数据的价值无法体现。如何应用海量的数据,实现数据流动,同时...

2020-01-02 14:02:45 7524

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除