一、移除重复数据
- DataFrame.duplicated()
- DataFrame.drop_duplicates()
1. duplicated()
返回bool序列,标识是否重复
示例:
2. drop_duplicates
剔除重复值
示例
二、利用函数或映射进行数据转换
1. Series.map()
接受函数或含有映射关系的字典型对象
示例:
2. DataFrame.apply()
接收函数,并将函数作用于DataFrame的每一列or每一行
3. DataFrame.applymap()
接收函数(字典型对象不可),并将函数作用于DataFrame的每一个元素
三、替换值
1. DataFrame.replace()
替换一个值、替换多个值、不同的值进行不同的替换
示例:
四、重命名轴索引
1. DataFrame.rename()
对轴标签进行重命名
示例:
五、离散化和面元划分
为了便于分析,连续数据常常被离散化或拆分为“面元”(bins),下面两个离散化函数对分量和分组分析都非常重要
1. pd.cut()
按指定分割点进行分组
示例:
2. pd.qcut()
按分位数进行分组
示例:
六、检测和过滤异常值
异常值的检测和过滤运算在很大程度上就是数组运算
七、排列和随机采样
1. np.random.permutation()
示例:
八、计算指标/哑变量
1. pd.get_dummied()
获得哑变量