AI Time | 论道数据共享开放与隐私保护

640?wx_fmt=png

来源:大数据文摘

本文约3600字,建议阅读10分钟。

我们需要的是灵活的隐私保护和数据共享方案。


[ 导读 ]7月15日,第4期AI Time邀请到了4位重磅嘉宾,就“数据共享开放与隐私保护”这个似乎高深,又与每个人息息相关的话题展开讨论。


7月26日15点,我们将迎来AI Time 第5期 , “论道无人驾驶即将来临还是遥遥无期”,嘉宾包括小马智行联合创始人兼CTO楼天城、清华大学教授邓志东等,欢迎扫下边小程序免费报名。


640?wx_fmt=png


上周一,在第四期AI Time论坛中,几位嘉宾用“垃圾值不值得快递取决于这包所谓垃圾的价值”类比了“数据是否值得被加密后共享”这个问题。

 

640?wx_fmt=png


如何处理数据共享与隐私保护之间的矛盾早已成为了当前数据圈的热议话题,本期“智源-AI Time”邀请到了明略科技集团首席科学家吴信东教授、清华大学计算机系朱小燕教授、清华大学交叉信息研究院徐葳副教授,以及微众银行人工智能部副总经理吴海山博士,共同论道了“数据共享开放与隐私保护”这个似乎高深,又与每个人息息相关的话题。


数据开放的三大必要条件


我们共享位置信息以便预约车的司机找到自己,也暴露了自己的行踪;用浏览纪录调教APP获得更合心意的推荐,也让个人喜好一览无余。开放个人数据的同时,我们冒着暴露隐私的危险,也享受着它带来的便利。


有统计数据显示,每天全世界会上传5亿张图片,每分钟就有20小时的视频被分享,我们整个人类文明所产生的全部数据中有90%是过去两年所产生的。


有人说,发挥数据的价值,主要在流通。的确,数据共享可以使更多的人充分地使用已有数据资源,减少资料收集、数据采集等重复劳动和相应费用,而把精力重点放在开发新的应用程序及系统集成上。但是,要真的让数据流通起来,需要以下这些必要条件:


  • 数据资源的标准化


数据开放共享,首先要做到的就是数据资源的标准化。我们需要解决大规模的、来自多个来源的、异构的数据集成问题,实现海量多元异构数据源的统一管理。


  • 数据质量


数据质量是数据开放共享中需要解决的关键问题。比如,对于数据的发布者来说,怎么样来保证开放的数据没有敏感内容,怎么样保证这个数据是可信的?自动的评估和控制数据质量,是一个关键指标。明略科技集团首席科学家、IEEE Fellow吴信东教授介绍了他最近发表在《软件学报》上的“数据治理技术”论文,强调数据治理包括数据规范、数据清洗、数据交换和数据集成。


  • 开放和共享不等于免费


清华大学计算机系朱小燕教授提到“开放和共享不等于免费”,分配权益,其实也是数据流通的基本动力,必须要保证数据的拥有者,持有者和开发者,都能有满意的权益分配。 


640?wx_fmt=jpeg

清华大学计算机系朱小燕教授


数据共享和开放在产业界的趋势和挑战


根据不同的用法,数据有不同的治理和整理方法。那些使用数据的人,未必是生产数据的人。


清华大学交叉信息研究院徐葳副教授提到,“来自业内的数据可能不如分布在地方政府手里的数据多,但是很多人会明显觉得BAT似乎把数据用的更好。那是因为业内特定领域已经打通了数据并且形成了闭环,他们更清楚数据应该怎么使用,理解根据这些使用需要采集怎样的数据、怎样去对数据进行清洗。”

 

640?wx_fmt=jpeg

清华大学交叉信息研究院徐葳副教授

 

的确,数据必须要流动起来它才能产生价值,否则的话它就是一个孤岛,没有什么太大的价值。数据共享,也需要一个前后背景,以学术研究还是产业应用为前提进行共享,这两者的管理治理完全不一样。


以金融行业为例,微众银行人工智能部副总经理吴海山认为,因为金融行业对数据的应用和管控会更加严格。比如,如果用来投资,被标为非公开信息的数据会被禁止使用。而关于个人用户隐私层面的管控可能更严,在金融领域里面,有一种“另类数据”。它不是类似传统银行财报这样公开的信息,而是一种新型的数据,比如卫星遥感图像、手机上的GPS数据、网站APP下载的数据。这些也可以用来分析一个公司或者一个国家经济层面的运转程度。


现在越来越多的研究层面开始关注,包含用户信息的数据如何在技术场景里使用。为了解决一个工业界的问题,需要训练模型,那如何在不共享数据的情况下进行机器学习呢?


吴海山博士举例解释,“比如用数据去分析用户贷款违约的概率,可能需要A公司电商的数据、B公司社交的数据,但两家公司不可能放心地把数据放到一个平台上,在这种情况下,为了在数据不共享的情况下,依然能够训练机器学习模型,微众银行的首席人工智能官杨强教授提出了联邦学习,它是一种加密的分布式机器学习技术,能够在保护用户隐私的前提下,各个企业的自有数据不出本地,通过加密机制实现参数交换,以一个合法合规的方式去使用数据、训练模型、解决问题。联邦学习是在隐私保护下的机器学习的可实现路径,并为数据孤岛提供了一个解决方案。”

 

640?wx_fmt=jpeg

微众银行人工智能部副总经理吴海山


“离开数据服务谈数据隐私都是耍流氓”


机器学习需要大量数据,数据的共享无疑是学界和业界共同期待的,但是数据的共享也离不开对于数据和隐私的保护。


对于用户隐私的保护,几位专家有不同的看法。徐葳教授认为隐私是一种个人感受;吴信东教授认为企业的隐私就是其核心竞争力。


而吴海山博士则认为隐私的背后意味着数据是一种资产,“我们去看病的时候,恨不得把所有的信息都告诉医生,我们买房子贷款的时候,恨不得把以往所有的信息都给银行看,才能让它给你贷款。这个时候数据已经作为一种资产,有一个隐含的定价前提。你得到更好的金融服务,得到更好的企业服务,个性化服务。所以谈任何个人隐私、企业隐私,其背后都有服务和隐私之间的一个平衡,这是在讨论隐私之前需要关注的问题。”


数据加密技术大盘点


大数据生命周期分为数据发布、数据储存、分析和挖掘、数据使用,在这些环节中都存在数据隐私保护的问题。加密是保护数据的一个手段,但是加密之后的数据无法使用。现在的技术需要保证数据在流通使用过程中也不造成泄露,也就是限制数据的使用。


在沙龙现场,几位嘉宾也探讨了目前几种常见的数据加密技术。


  • 差分隐私


差分隐私其实是一种度量方式。通过一群人里算出来的模型,和去除A算出来的是一样的,这样就无从判断A是否还在这群人中,就起到保护A隐私的作用。这个方法对于保护“泯然众人”的数据是有用的,但是却很难保护那些“很个性”的数据,因为这些“个性”的数据对于整体数据的计算印象很大。


  • 安全多方计算


安全多方计算(SMC,Secure Multi-Party Computation)是解决一组互不信任的参与方之间保护隐私的协同计算问题,SMC要确保输入的独立性,计算的正确性,同时不泄露各输入值给参与计算的其他成员。主要是针对无可信第三方的情况下,如何安全地计算一个约定函数的问题,在电子选举、电子投票、电子拍卖、秘密共享、门限签名等场景中有着重要的作用。


  • K匿名


k-匿名技术是1998年由Samarati和Sweeney提出的,要求发布的数据中存在一定数量(至少为k)的在准标识符上不可区分的记录,使攻击者不能判别出隐私信息所属的具体个体,从而保护了个人隐私。吴信东教授举例解释,“比如在西方国家,为了避免报警者受到报复,警察记录的是方圆多少距离的人打来的报警电话,通过对位置信息的泛化,保护了报警者的位置信息,但同时也会降低数据的可用性。可能警察记录是五公里以内的人打了电话,但是警察自己也找不到那个人是谁。”吴教授也介绍了他2003年在TKDE上同中南大学张师超教授一起发表的Local Analysis方法,这种方法利用本地学习的思想做信息保护和模型共享,但模型共享可能还是有信息保护的顾虑。


640?wx_fmt=jpeg

明略科技集团首席科学家吴信东教授


什么样的数据值得保护?数据隐私保护技术就像是顺丰快递,要看寄送的东西值不值得快递费用。评估数据的价值,是比数据保护更重要的事情。数据保护问题的本质就在于我们如何对数据进行定价。或许有人出价一万买你的隐私,你会断然拒绝;但如果是一亿呢?离开数据的定价、数据流动产生的价值和通过数据得到的服务去讨论数据隐私,其实都是比较片面的。


隐私保护的政策问题


2018年5月25日,欧洲联盟出台《通用数据保护条例》(GDPRGeneral Data Protection Regulation)。这是全球目前最严格的数据保护条例。其最高的一笔罚单给了英国航空公司,罚金数额为1.8339亿英镑(约合15.8亿元人民币)。


国际方面对于数据保护的政策愈发严格,中国在保护个人信息方面也发布了推荐性国家标准《信息安全技术个人信息安全规范》, 可以说在数据隐私保护规定方面,中国走在了亚洲前列。这项规范也参考了欧盟的《通用数据保护条例》,ISO29000系列等国际范围内的个人信息保护法律法规及标准,同时,从国内主要存在的个人信息保护现状和问题出发制定标准,更侧重标准的实用性。


欧盟《通用数据保护条例》(即GDPR)的制定确实在一定程度上保护了数据,但是也阻碍了欧洲人工智能产业的发展。而且,因为GDPR罚款高达公司全球营业额的4%,这对传统产业的企业很不友好、也不利于小公司的生存和发展。


从政策制定角度来讲,隐私保护政策需要可操作性以及合理合法的指导,让受众接受这条政策并积极施行。从经济学角度来讲,隐私保护政策会提高数据的价值,毕竟数据本身就是一种资产。


更严的隐私无疑会增加数据的成本,让整个行业尤其是小公司生存更加困难;更开放的数据共享,只会让大众和媒体放大数据隐私的侵犯,反而忘记数据共享带来的价值。我们需要的是灵活的隐私保护和数据共享方案。


640?wx_fmt=jpeg

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
【优质项目推荐】 1、项目代码均经过严格本地测试,运行OK,确保功能稳定后才上传平台。可放心下载并立即投入使用,若遇到任何使用问题,随时欢迎私信反馈与沟通,博主会第一时间回复。 2、项目适用于计算机相关专业(如计科、信息安全、数据科学、人工智能、通信、物联网、自动化、电子信息等)的在校学生、专业教师,或企业员工,小白入门等都适用。 3、该项目不仅具有很高的学习借鉴价值,对于初学者来说,也是入门进阶的绝佳选择;当然也可以直接用于 毕设、课设、期末大作业或项目初期立项演示等。 3、开放创新:如果您有一定基础,且热爱探索钻研,可以在此代码基础上二次开发,进行修改、扩展,创造出属于自己的独特应用。 欢迎下载使用优质资源!欢迎借鉴使用,并欢迎学习交流,共同探索编程的无穷魅力! 基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip 基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip 基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip
提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值