数据开放 数据集_开放数据集需要强大的隐私保护

数据开放 数据集

机器学习系统和其他算法越来越依赖于Kaggle等网站上的开放数据集来运行数据科学应用程序并训练机器学习模型。 在一个特定的工作领域并非如此,从医学分析犯罪预测再到自然语言处理的应用都适用

当下载包含成千上万,数十万甚至数百万个数据点的巨大文件时,很容易忘记每条信息背后的个人。 但是,人类却是这些数据集的幕后黑手,随着越来越多的数据由私有和公共机构公开和公开发布(无论是协助研究,遵守披露协议等),我们需要强大的隐私保护来保护人们的信息包含在数据集中,无论同意与否。

一段时间以来,所谓的“匿名化”是向数据集添加隐私保护的答案。 在此过程中,例如,一个人的名字将被替换为一个随机数,而与此人相关联的其余属性将保持不变。 完全设置好吗? 错误。

匿名化不是确保保护较大数据集中的个人数据的可靠方法。 正如安全专家Bruce Schneier所写 ,这种方法存在“固有的安全问题”。 思维有缺陷,认为简单地将名称与数字字符串交换会删除所有可能的标识符或指向个人的链接。 实际案例研究证明了这一事实。

Netflix在2006年发布了由50万客户创建的1000万部电影排行榜,以鼓励人们开发卓越的推荐系统。 德克萨斯大学奥斯汀分校的研究人员能够通过将Netflix的数据点链接到Internet电影数据库(IMDb),“个人博客,Google搜索等”上的“辅助信息”,来对数据进行部分匿名处理 。 大约在同一时间,AOL在线发布了2000万个网络搜索,此后, 《纽约时报》 将数据与电话簿列表进行了交叉引用,以类似方式识别出数字背后的个人。 您可以在线找到其他示例。

这些所谓的隐私攻击使研究人员和恶意攻击者可以发现谁是面具背后的人,可以说是在开放数据集中-将看似匿名或随机采样的信息链接到特定人员。 为了解决这个问题, 差异性隐私(涉及向数据库添加“噪音”)是计算机科学中的新兴标准,旨在保护个人的隐私,同时仍保持数据集的相对效用。 当开放数据集涉及敏感的个人信息时,缺乏这种保护尤其令人担忧。

例如, HealthData.gov提供了数千个数据集的易于搜索的索引。 是否需要有关成人烟草消费的信息重新安置,急诊室就诊和社区出院的措施 ? 都在那里。

随着城市越来越多地使用机器学习系统和其他算法来增强其现有的管理功能并建立新的功能,甚至城市也在在线发布数据:识别道路上的坑洼,对无家可归者进行风险评估,减少交通拥堵,将交通事故降至最低,预测发生山洪,与啮齿动物交战,预测非法油脂处理等。 福布斯 统计了至少90个拥有开放数据门户的城市。 虽然大多数都是大城市,但我想这个列表会在几年内扩展到​​较小的区域。

为了使用当前示例,纽约市通过其开放数据项目在线发布了数千个公开可用的数据集。 例如,纽约市的出租车和豪华轿车委员会按月公开发布有关全市出租车和豪华轿车旅行的数据。 网站上写道:“黄色和绿色的出租车行程记录,包括捕获上下车日期/时间,上下车位置,行程距离,详细的票价,费率类型,付款类型,以及司机报告的乘客人数。” 租用车辆旅行记录“包括捕获调度基本许可证号以及上车日期,时间和滑行区位置ID的字段”。

这些数据集中的大多数数据集都未实现强大的隐私保护。 由于所有这些数据都是公开的,因此当隐私保护不足或不存在时,滥用的可能性就很大。 这是在纽约市的出租车数据中发生的,当时研究人员检查了数据集如何显示有关驾驶员的住所和收入的信息,以及乘客的详细旅行证件,这也可能会造成损害。

显然,发布任何数据集的组织已经可以访问原始的,原始的,不受保护的信息,并且尽管对此事实(例如, 数据的收集方式或使用的道德规范)提出了一些疑问,但这并不是我们关注的重点。 。 相反,请考虑其他组织(除披露者之外)如何使用数据。 公司可以发布健身可穿戴设备的GPS日志,政府可以将其用于事后或近乎实时地跟踪人们的运动。 或者,一个城市可以发布有关其某些居民的数据,然后公司可以使用这些数据来提高个人的保险费率或得出详细的旅行历史记录。 可能会发生真正的伤害。

在以下情况下,为什么数据隐私问题会变得具有挑战性:a)许多人不了解如何监视它们的普遍性,b)其他人则对监视至关重要,并且c)其他人却宣称“隐私已死”并得出结论,我们应该继续前进。 这些都是危险的现实,因为隐私不关心是一种特权:“侵犯隐私伤害最脆弱的我们中间,”我写的 ,和“一种信念,数据隐私保护‘可能没有事情’只是一个不足惧不会对您使用这些信息。” 我们可能不在乎我们的信息是否由算法推断出来并可供决策者访问,但这并不适用于所有人。 而且,更广泛地说,也许我们一开始就不同意这些潜在的危害性披露。

因此,当我们考虑算法偏差建立代表性数据集之类的问题时 ,我们还需要考虑我们的社会如何在公开发布的数据集中强制实施最低限度的隐私保护,尤其是在政府机构的情况下,这些机构已经受到信息法的约束。披露。 这可能涉及看门狗组,有关数据集的最低隐私阈值的法律等等。 并且随着公众对数据隐私的担忧增加(尽管也许过于集中在Facebook上,而又没有足够集中在其他公司上),市场压力也可能会发挥作用。

因此,要在开放的数据集中建立强大的隐私保护,联邦,州和市级的政府实体就此问题需要决策者和技术专家之间进行正式和非正式的对话。 因为我们需要的最后一件事是技术上无知的政策,对原本应该保护的人没有帮助,甚至没有伤害。

翻译自: https://opensource.com/article/19/1/open-datasets-demand-robust-privacy-protections

数据开放 数据集

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值