全文共2256字,预计学习时长4分钟
图片来源:unsplash.com/@dmey503
工作中处理含敏感信息的数据集是有风险的。一旦这类数据在数据集中出现,数据科学家们应谨慎再谨慎。
人们通常认为,处理敏感信息时,只要删除姓名、ID及信用卡卡号就能保护个人隐私。这其实是误解。尽管删除直接识别信息能起到一定作用,但人们能通过数据集里很多其他信息来重新识别个体。
比方说,哈佛大学定量社会分析学院(IQSS)数据隐私实验室的主管娜塔尼亚·斯威尼(Latanya Sweeney)就证实道,87%的美国人身份可通过邮政编码、性别及出生日期被再次确认。
本文将介绍如何有效降低数据集的隐私风险,并同时维持其分析价值,以开展机器学习。
接下来的例子将使用在数据科学家中备受欢迎的工作平台Jupyter Notebooks,运用原始数据和隐私保护的数据来预测工薪阶层。本文将运用CryptoNumerics的隐私文件库进行隐私算法,运用sklearn进行回归分析。
CryptoNumerics隐私文件库文献:https://cryptonumerics.com/cn-protect-for-data-science/?utm_source=DZone
现在来看看例子吧。
首先,输入文件库。
将数据集读入Pandas。