大数据文摘出品
作者:易琬玉
一包垃圾值得被快递吗?
当然,一袋普通的垃圾肯定不值得,但是可以暴露出某个重要人物信息的垃圾就需要小心处理,再或者,对于一个被垃圾分类逼疯的上海市民来说,答案也可能不同。
本周一,在最新一期“智源-AI Time”沙龙中,几位嘉宾用“垃圾值不值得快递取决于这包所谓垃圾的价值”类比了“数据是否值得被加密后共享”这个问题。
如何处理数据共享与隐私保护之间的矛盾早已成为了当前数据圈的热议话题,本期“智源-AI Time”邀请到了明略科技集团首席科学家吴信东教授、清华大学计算机系朱小燕教授、清华大学交叉信息研究院徐葳副教授,以及微众银行人工智能部副总经理吴海山,共同论道了“数据共享开放与隐私保护”这个似乎高深,又与每个人息息相关的话题。
数据开放的三大必要条件
我们共享位置信息以便预约车的司机找到自己,也暴露了自己的行踪;用浏览纪录调教APP获得更合心意的推荐,也让个人喜好一览无余。开放个人数据的同时,我们冒着暴露隐私的危险,也享受着它带来的便利。
有统计数据显示,每天全世界会上传5亿张图片,每分钟就有20小时的视频被分享,我们整个人类文明所产生的全部数据中有90%是过去两年所产生的。
有人说,发挥数据的价值,主要在流通。的确,数据共享可以使更多的人充分地使用已有数据资源,减少资料收集、数据采集等重复劳动和相应费用,而把精力重点放在开发新的应用程序及系统集成上。但是,要真的让数据流通起来,需要以下这些必要条件:
数据资源的标准化
数据开放共享,首先要做到的就是数据资源的标准化。我们需要解决大规模的、来自多个来源的、异构的数据集成问题,实现海量多元异构数据源的统一管理。
数据质量
数据质量是数据开放共享中需要解决的关键问题。比如,对于数据的发布者来说的话,怎么样来保证开放的数据没有敏感内容,怎么样保证这个数据是可信的?自动的评估和控制数据质量,是一个关键指标。