Excel 是数据处理最常用的工具,pandas 是数据分析的利器。那么,Excel 一些常见的操作, pandas 如何实现呢?网上有两篇挺有意思的文章,对此做了详细介绍。我结合自己在学习博文过程中的理解,总结成文。
本篇介绍 pandas 的 DataFrame 对列 (Column) 的处理方法。示例数据请从这里下载。
增加计算列
pandas 的 DataFrame,每一行或每一列都是一个序列 (Series)。比如:
import pandas as pd
df1 = pd.read_excel('http://pbpython.com/extras/excel-comp-data.xlsx');
此时,用 type(df1['city'],显示该数据列(column)的类型是 pandas.core.series.Series。理解每一列都是 Series 非常重要,因为 pandas 基于 numpy,对数据的计算都是整体计算。深刻理解这个,才能理解后面要说的诸如 apply() 函数等。
如果列名 (column name)没有空格,则列有两种方式表达:
df1['city']
df1.city
如果列名有空格,或者创建新列(即该列不存在,需要创建,第一次使用的变量),则只能用第一种表达式。
假设我们要对三个月的数据进行汇总,可以使用下面的方法。实际上就是创建一个新的数据列:
# 由于是创建,不能使用 df.Total
df1['Total'] = df1['Ja