关注“亨利笔记”公众号,后台回复: 数据要素,可获取杨强教授演讲PPT。回复 kubefate,可以加入联邦学习开源项目 KubeFATE 交流群。
9月25日,VMware 联合多家合作伙伴举办了「2021 AceCon 智能云边开源峰会」。本次峰会汇聚众多开源领导者及社区重要贡献者,聚焦当下三大热门技术主题:AI,云原生和边缘计算。
微众银行首席人工智能官杨强教授受邀出席本次会议,作为最早研究“联邦学习”的国际人工智能专家之一、“迁移学习”的开创者,杨强教授作了“数据要素与联邦学习”主题演讲。以下为杨强教授精彩演讲的视频回放及内容文字摘要:
杨强教授《数据要素与联邦学习》演讲文字摘要:
大家好,今天我演讲的主题是数据要素与联邦学习。
首先,我们看一下数据要素和人工智能的关系,我们知道数据有它一个特别的特点,就是它本身复制起来是零成本的,非常容易复制。
第二是数据是有价值的,但是它的价值是随场景而定。比方说,你拿一个数据集,它本身不一定产生价值,但是如果你把它和金融的数据结合起来,它就变成一个金融的风控场景;你把它和互联网广告的数据结合起来,那它就变成一个广告的场景。
还有,数据可以使用多次,就是不排他这个概念。跟它相对的就像石油,如果我们拿一桶石油去做一件事,就不能拿它做另外一件事。但数据不一样,数据我们可以重复的拿它来做多种事情。
最后,数据它有资本的特点,就是它有马太效应,数据越多的人,他的服务就可能越好,那么他就可能得到更多的数据。
另一方面,数据又是以指数的形式在增加的。图灵奖获得者 Jim Gray 说过,未来一年半所产生的数据等于历史上所有数据之和,也就说是指数型结构在增长的。
最近,我们国家对数据越来越重视,在2020年国务院令发布了数据要素市场的意见,特别把数据提升到一个要素,就是和土地、劳动力、资本和技术一样提到一个要素的层次,并且提出要加快的培育数据要素市场。
因此,国内的法律和监管也就越来越严,像9月份马上要出台的数据安全法。在此之前,欧盟和美国也是频繁地推出了非常严格的法律。像我们大家熟知的欧盟,就在2018年出了一个 GDPR 法案。美国也相应的有一个加州的消费者隐私法案 CCPA。在我们中国,不仅有数据安全的一个通用法案,同时还有各个行业针对不同人群,针对不同的媒体媒介有不同的法案。
在这个前景下,我们知道数据很有用,同时数据有这些特点,又很容易被滥用。那么,鱼和熊掌是不是可以兼得?什么是鱼?就是计算结果,我们需要利用不同的数据整合起来,建立一个好的模型,我们要的是结果的提升。但是熊掌就是安全,就是我们又要安全又要保护隐私,那么又要结果又要隐私是不是可以兼得?我们提出一个口号叫做数据可用不可见ÿ