介绍
Pandas 是一个强大的数据分析工具,它使得在 Python 中处理和分析数据变得更加简单。它主要通过两种数据结构来处理数据:Series
和 DataFrame
。Series
适用于一维数据,而 DataFrame
适用于二维表格型数据。这个教程将为您介绍 Pandas 的基本概念和常用操作。
安装 Pandas
首先,确保您已经安装了 Pandas。如果没有安装,可以通过以下命令安装:
pip install pandas
引入 Pandas
在使用 Pandas 之前,需要先引入它:
import pandas as pd
创建一个 Series
# 创建一个简单的 Series
data = [1, 2, 3, 4, 5]
s = pd.Series(data)
print(s)
输出:
0 1
1 2
2 3
3 4
4 5
dtype: int64
创建一个 DataFrame
# 创建一个简单的 DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 30, 35, 40],
'City': ['New York', 'San Francisco', 'Los Angeles', 'Chicago']}
df = pd.DataFrame(data)
print(df)
输出:
Name Age City
0 Alice 25 New York
1 Bob 30 San Francisco
2 Charlie 35 Los Angeles
3 David 40 Chicago
读取和保存数据
Pandas 可以方便地从各种数据源读取数据,例如 CSV 文件、Excel 文件等。以下是一个读取 CSV 文件的例子:
# 从 CSV 文件读取数据
df = pd.read_csv('example.csv')
# 显示前几行数据
print(df.head())
如果您想将 DataFrame 中的数据保存到文件中:
# 将 DataFrame 保存为 CSV 文件
df.to_csv('output.csv', index=False)
数据选择和过滤
Pandas 允许您轻松地选择和过滤数据:
# 选择单列
print(df['Name'])
# 选择多列
print(df[['Name', 'Age']])
# 使用条件过滤数据
print(df[df['Age'] > 30])
数据排序
# 按某列升序排序
df_sorted = df.sort_values(by='Age')
# 按某列降序排序
df_sorted_desc = df.sort_values(by='Age', ascending=False)
描述性统计
# 显示数据的描述性统计信息
print(df.describe())
数据操作
Pandas 支持各种数据操作,例如添加新列、删除列、合并数据等。
# 添加新列
df['New_Column'] = df['Age'] * 2
# 删除列
df = df.drop('New_Column', axis=1)
# 合并两个 DataFrame
df1 = pd.DataFrame({'A': ['A0', 'A1'], 'B': ['B0', 'B1']})
df2 = pd.DataFrame({'A': ['A2', 'A3'], 'B': ['B2', 'B3']})
result = pd.concat([df1, df2], ignore_index=True)