pandas 是一种流行的 Python 数据处理库,用于快速高效地处理和分析大量的数据集。下面是一些 pandas 常用功能的详细用法:
- 导入 pandas 库
import pandas as pd
- 读取数据集
pandas 可以通过多种方式读取数据集,包括从 CSV 文件、Excel 文件、数据库、网络资源等。
- 从 CSV 文件读取数据:
data = pd.read_csv('filename.csv', header=0, encoding='utf-8')
其中,header 参数指定了 CSV 文件的头行,默认为 0;encoding 参数指定了编码格式,默认为 ‘utf-8’。
- 从 Excel 文件读取数据:
data = pd.read_excel('filename.xlsx', sheet_name='Sheet1')
其中,sheet_name 参数指定要读取的工作表的名称或索引,默认为第一个工作表。
- 查看数据集信息
pandas 提供了多种方法用于快速查看数据集的结构、属性、摘要等信息。
- 查看数据集前几行:
data.head()
- 查看数据集后几行:
data.tail()
- 查看数据集的形状(行数、列数):
data.shape
- 查看数据集的属性:
data.info()
- 查看数据集的摘要统计信息:
data.describe()
- 数据清洗与预处理
pandas 提供了多种方法用于数据清洗、填充、转换等处理操作。
- 缺失值填充:
data.fillna(value=0, inplace=True)
其中,value 参数指定了要填充的值,inplace 参数指定是否替换原始数据集,默认为 False。
- 数据类型转换:
data['column_name'] = data['column_name'].astype('int')
其中,column_name 是要转换数据类型的列的名称,‘int’ 表示转换为整数类型。
- 数据重命名:
data.rename(columns={'old_name': 'new_name'}, inplace=True)
其中,old_name 是旧列名,new_name 是新列名,inplace 参数指定是否替换原始数据集,默认为 False。
- 数据选择与过滤
pandas 提供了多种方法用于从数据集中选择、过滤、切片等操作。
- 列选择:
data['column_name']
其中,column_name 是要选择的列的名称。
- 行选择:
data.loc[data['column_name'] == 'value']
其中,column_name 是要筛选的列的名称,value 是要匹配的值。
- 过滤:
data.query("column_name > 10")
其中,column_name 是要过滤的列的名称。
- 数据聚合与分组
pandas 提供了多种方法用于数据聚合、分组统计等操作。
- 数据分组与聚合:
data.groupby('column_name').sum()
其中,column_name 是要分组的列的名称。
- 数据透视表:
pd.pivot_table(data, values='value', index='column1', columns='column2')
其中,data 是要创建透视表的数据集,values 是要汇总的值的列名,index 和 columns 分别是行和列的分组变量。
这些是 pandas 中的一些常用功能,它们可以帮助快速高效地处理数据集。当然,pandas 还有更多的功能和用法,可以参考官方文档进行学习和掌握。