sklearn_pandas:https://github.com/scikit-learn-contrib/sklearn-pandas
它提供了一个DataFrameMapper类,使得处理pandas.DataFrame更容易,因为它可以在更少的代码行中完成变量的编码转换。
我利用IPython.core.interactiveshell …更改了Jupyter Notebook默认配置,用来显示多个输出。这里有一篇很好的博文介绍了其他关于Jupyter的实用小技巧。
最后,我们将一些代码放入一个名为utils.py的文件中,我们把这个文件放在Notebook代码文件旁边。
Jupyter的实用小技巧:
https://www.dataquest.io/blog/jupyter-notebook-tips-tricks-shortcuts/
df = pd.read_csv("../data/titanic_train.csv")
我们的分析采用Titanic Dataset的训练数据集。
数据集链接:
https://www.kaggle.com/c/titanic
df.shape
df.head()
现在我们已经加载了数据,后面将删除所有可识别个人身份的信息。列[“PassengerId”,“Name”]包含此类信息。请注意,[“PassengerId”,“Name”]对于每一行都是唯一的,因此如果构建机器学习模型,无论如何都需要在后续删除它们。
同样对[“Ticket”,“Cabin”]列也进行类似的操作,因为这两列对于每一行几乎都是唯一的。
出于演示方便,我们不会处理缺失值。我们只是忽略所有包含缺失值的观察结果。
结果看起来像这样。
df.shape
df.head()
接下来,为了剔除更多信息,并作为后续步骤的预处理,我们将对“Sexed”和“Embarked”进行数值编码转换。
“Sex”被编码为“0,1”,“Embarked”被编码为“0,1,2”。LabelEncoder()类为我们完成了大部分工作。
DataFrameMapper来自sklearn_pandas包,接收元组(tuple)列表作为参数,其中元组的第一项是列名,第二项是转换器。
我们在这里使用LabelEncoder(),但也可以使用其它转换器(MinMaxScaler(),StandardScaler(),FunctionTransfomer())。
在最后一行中,我们将编码后的数据与其余数据连接起来。请注意,您也可以写axis = 1,但是axis =“columns”可读性更强,我鼓励大家使用后者。
df.shape
df.head()
df.nunique()
通过从同一分布中抽样来匿名化
上述代码我打印了每列的唯一值的取值个数。我们假设具有少于20个取值个数的是名义变量或分类变量,具有大于等于20个取值个数的都是连续变量。
我们将名义/分类变量放在一个列表中,将其它变量放在另一个列表中。
for c in list(df): 迭代所有列。对于list(df),我们也可以写成df.columns.tolist()。我还是喜欢list(df)。
以下是本文的核心思想:对于每个分类变量,我们将计算其每项取值出现的频率,然后为每个取值创建具有相同频率的离散概率分布。
对于每个连续变量,我们将从预定义的分布列表中确定最佳连续分布。我们怎么做呢?一旦确定了所有概率分布(离散和连续),我们就可以从这些分布中进行采样以创建新的数据集。
处理名义/分类变量
这是一个简单的例子,只用三行代码。
首先,我们确定变量中每个唯一值出现的频率。然后我们使用这个经验概率函数并将其传递给np.random.choice()以创建一个具有相同概率函数的新随机变量。
处理连续变量
幸运的是,StackOverflow上有一个类似问题的讨论。主要解决方案如下,对于每个连续变量做如下处理:
- 使用预定义数量的区间来创建直方图
- 尝试一系列连续函数,让每个函数都去拟合该直方图,拟合过程中会产生函数的参数。
- 找到具有最小误差(最小残差平方和)的函数,该函数与该直方图将被我们用来模拟连续变量分布。
最后
不知道你们用的什么环境,我一般都是用的Python3.6环境和pycharm解释器,没有软件,或者没有资料,没人解答问题,都可以免费领取(包括今天的代码),过几天我还会做个视频教程出来,有需要也可以领取~
给大家准备的学习资料包括但不限于:
Python 环境、pycharm编辑器/永久激活/翻译插件
python 零基础视频教程
Python 界面开发实战教程
Python 爬虫实战教程
Python 数据分析实战教程
python 游戏开发实战教程
Python 电子书100本
Python 学习路线规划
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。**
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!