五、相关操作
统计(相关操作通常情况下不包括缺失值)
1、执行描述性统计:
若 A、B、C、D中有缺失值,默认参数skipna = True ,缺失值不会参与计算,即A有5个数据,有两个数据为nan,则mean是三个数据的平均。如果skipna = False ,则nan参与计算,结果还是Nan。
2、在其他轴上进行相同的操作:
mean(1) 表示 在1轴方向上,即按行求平均,mean(0)表示0轴方向上,即按列求平均。
3、对于拥有不同维度,需要对齐的对象进行操作。Pandas 会自动的沿着指定的维度进行广播:
如上图df.sub(),实际运算过程中,将s 广播成 6*5形状,再相加。
Apply
1、 对数据应用函数
直方图功能:
上图产生10 个0-7范围内的整数,并用value_counts()统计值的频数。
字符串方法
Series 对象在其 str 属性中配备了一组字符串处理方法,可以很容易的应用到
数组中的每个元素,如下段代码所示。
将s series 的改成小写。
六、合并
concat
上图,将df 分成了0-2、3-6、7-9三份,然后再合并。
Join
类似于 SQL 类型的合并。
另一个例子:
按'key'连接,类似SQL 的按字段连接。
Append
将一行连接到一个DataFrame上。
七、分组
对于“group by”操作,我们通常是指一下一个或多个操作步骤:
(Splitting)按照一些规则将数据分为不同的组;
(Applying)对于每组数据分别执行一个函数;
(Combining)将结果组合到一个数据结构中;
1、分组并对每个分组执行sum函数:
2、通过多个列进行分组形成一个层次索引,然后执行函数: