手把手教你如何方便正确地使用Python和Pandas来匿名信息_python怎么查找匿名的人

最新推荐文章于 2024-12-03 11:37:29 发布

fram_

最新推荐文章于 2024-12-03 11:37:29 发布

阅读量773

点赞数 8

分类专栏：程序员文章标签： python pandas 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_76224223/article/details/138231251

版权

程序员专栏收录该内容

184 篇文章

订阅专栏

sklearn_pandas：https://github.com/scikit-learn-contrib/sklearn-pandas

它提供了一个DataFrameMapper类，使得处理pandas.DataFrame更容易，因为它可以在更少的代码行中完成变量的编码转换。

我利用IPython.core.interactiveshell …更改了Jupyter Notebook默认配置，用来显示多个输出。这里有一篇很好的博文介绍了其他关于Jupyter的实用小技巧。

最后，我们将一些代码放入一个名为utils.py的文件中，我们把这个文件放在Notebook代码文件旁边。

Jupyter的实用小技巧：

https://www.dataquest.io/blog/jupyter-notebook-tips-tricks-shortcuts/

df = pd.read_csv("../data/titanic_train.csv")

我们的分析采用Titanic Dataset的训练数据集。

数据集链接：

https://www.kaggle.com/c/titanic

df.shape
df.head()

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在我们已经加载了数据，后面将删除所有可识别个人身份的信息。列[“PassengerId”，“Name”]包含此类信息。请注意，[“PassengerId”，“Name”]对于每一行都是唯一的，因此如果构建机器学习模型，无论如何都需要在后续删除它们。

同样对[“Ticket”，“Cabin”]列也进行类似的操作，因为这两列对于每一行几乎都是唯一的。

出于演示方便，我们不会处理缺失值。我们只是忽略所有包含缺失值的观察结果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

结果看起来像这样。

df.shape
df.head()

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

接下来，为了剔除更多信息，并作为后续步骤的预处理，我们将对“Sexed”和“Embarked”进行数值编码转换。

“Sex”被编码为“0,1”，“Embarked”被编码为“0,1,2”。LabelEncoder()类为我们完成了大部分工作。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

DataFrameMapper来自sklearn_pandas包，接收元组（tuple）列表作为参数，其中元组的第一项是列名，第二项是转换器。

我们在这里使用LabelEncoder()，但也可以使用其它转换器（MinMaxScaler()，StandardScaler()，FunctionTransfomer()）。

在最后一行中，我们将编码后的数据与其余数据连接起来。请注意，您也可以写axis = 1，但是axis =“columns”可读性更强，我鼓励大家使用后者。

df.shape
df.head()

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

df.nunique()

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

通过从同一分布中抽样来匿名化

上述代码我打印了每列的唯一值的取值个数。我们假设具有少于20个取值个数的是名义变量或分类变量，具有大于等于20个取值个数的都是连续变量。

我们将名义/分类变量放在一个列表中，将其它变量放在另一个列表中。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

for c in list(df): 迭代所有列。对于list(df)，我们也可以写成df.columns.tolist()。我还是喜欢list(df)。

以下是本文的核心思想：对于每个分类变量，我们将计算其每项取值出现的频率，然后为每个取值创建具有相同频率的离散概率分布。

对于每个连续变量，我们将从预定义的分布列表中确定最佳连续分布。我们怎么做呢？一旦确定了所有概率分布（离散和连续），我们就可以从这些分布中进行采样以创建新的数据集。

处理名义/分类变量

这是一个简单的例子，只用三行代码。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

首先，我们确定变量中每个唯一值出现的频率。然后我们使用这个经验概率函数并将其传递给np.random.choice()以创建一个具有相同概率函数的新随机变量。

处理连续变量

幸运的是，StackOverflow上有一个类似问题的讨论。主要解决方案如下，对于每个连续变量做如下处理：

使用预定义数量的区间来创建直方图
尝试一系列连续函数，让每个函数都去拟合该直方图，拟合过程中会产生函数的参数。
找到具有最小误差（最小残差平方和）的函数，该函数与该直方图将被我们用来模拟连续变量分布。

最后

不知道你们用的什么环境，我一般都是用的Python3.6环境和pycharm解释器，没有软件，或者没有资料，没人解答问题，都可以免费领取（包括今天的代码），过几天我还会做个视频教程出来，有需要也可以领取~

给大家准备的学习资料包括但不限于：

Python 环境、pycharm编辑器/永久激活/翻译插件

python 零基础视频教程

Python 界面开发实战教程

Python 爬虫实战教程

Python 数据分析实战教程

python 游戏开发实战教程

Python 电子书100本

Python 学习路线规划

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里无偿获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！
学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。**

需要这份系统化学习资料的朋友，可以戳这里无偿获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。