1.安装
可以通过pip安装Pandas:
bash
pip install pandas
2. 基本数据结构
- Series:一维数组结构,可以存储任何数据类型。
- DataFrame:二维表格型数据结构,类似于Excel中的表格,有行和列。
3. 创建数据结构
- 创建Series:
python
import pandas as pd s = pd.Series([1, 3, 5, np.nan, 6, 8])
- 创建DataFrame:
python
df = pd.DataFrame({ 'Column1': [1, 2, 3, 4], 'Column2': ['a', 'b', 'c', 'd'], 'Column3': [True, False, True, False] })
4. 读取和写入数据
- 读取CSV文件:
python
df = pd.read_csv('filename.csv')
- 写入CSV文件:
python
df.to_csv('output.csv', index=False)
5. 选择和过滤数据
- 选择单个列:
python
col = df['Column1']
- 选择多个列:
python
cols = df[['Column1', 'Column2']]
- 条件过滤:
python
filtered_df = df[df['Column1'] > 2]
6. 数据清洗
- 处理缺失值:
python
df.dropna() # 删除缺失值 df.fillna(value) # 填充缺失值
- 数据类型转换:
python
df['Column1'] = df['Column1'].astype(int)
7. 数据操作
- 数据排序:
python
sorted_df = df.sort_values(by='Column1')
- 数据分组:
python
grouped = df.groupby('Column1')
- 数据合并:
python
merged_df = pd.merge(df1, df2, on='key_column')
8. 数据分析
- 描述性统计:
python
descriptive_stats = df.describe()
- 相关性分析:
python
correlation_matrix = df.corr()
9. 时间序列
- 处理时间数据:
python
df['date_column'] = pd.to_datetime(df['date_column'])
- 时间索引:
python
df.set_index('date_column', inplace=True)
10. 绘图
Pandas可以与Matplotlib库结合,为数据提供可视化:
python
import matplotlib.pyplot as plt df['Column1'].plot(kind='line') plt.show()
11. 性能优化
- 使用
categorical
数据类型来优化内存使用:python
df['categorical_column'] = df['categorical_column'].astype('category')
- 使用
eval
或query
方法进行复杂条件的快速评估。