简介
我们在利用pandas
开展数据分析时,应尽量避免过于「碎片化」的组织代码,尤其是创建出过多不必要的「中间变量」,既浪费了「内存」,又带来了关于变量命名的麻烦,更不利于整体分析过程代码的可读性,因此以流水线方式组织代码非常有必要。
下面要介绍的pipe()
,我们就可以将任意pandas
代码完美组织成流水线形式。
在pandas中灵活利用pipe()
pipe()
顾名思义,就是专门用于对Series
和DataFrame
操作进行流水线(pipeline
)改造的API
,其作用是将嵌套的函数调用过程改造为「链式」过程,其第一个参数func
传入作用于对应Series
或DataFrame
的函数。
具体来说pipe()
有两种使用方式,「第一种方式」下,传入函数对应的第一个位置上的参数必须是目标Series
或DataFrame
,其他相关的参数使用常规的「键值对」方式传入即可,就像下面的例子一样,我们自编函数对「泰坦尼克数据集」进行一些基础的特征工程处理:
码字不易废话两句:有需要python学习资料的或者有技术问题交流 “点击”即可
import pandas as pd
train = pd.read_csv('train.csv')