关于Pandas库的用法_pandas库操作-CSDN博客

本文链接：https://blog.csdn.net/gfxsx/article/details/132206351

本文介绍了Pandas库在Python中的应用，包括数据的读取、基本操作、清洗、分析（如计数、透视表、时间序列分析）、合并连接以及数据可视化。通过实例展示了如何使用Pandas进行数据分析工作并提供了一些关键函数的使用方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

关于Pandas库

Pandas 是一个在 Python 中广泛使用的数据分析库，它提供了灵活的数据结构和数据处理工具，使数据分析变得更加方便和高效。

1、安装 Pandas

pip install pandas

2、基本操作

1.数据读取与基本操作：

import pandas as pd

# 从CSV文件读取数据
data = pd.read_csv('data.csv')

# 显示前几行数据
print(data.head())

# 基本统计信息
print(data.describe())

# 选择特定列并计算统计信息
selected_column = data['column_name']
print('Mean:', selected_column.mean())
print('Median:', selected_column.median())
print('Std Dev:', selected_column.std())

2. 数据清洗与处理：

# 删除包含缺失值的行
data_cleaned = data.dropna()

# 将字符串列转换为小写并删除重复行
data['column_name'] = data['column_name'].str.lower()
data_no_duplicates = data.drop_duplicates()

3. 数据分析与汇总：

# 计算不同类别的数量并绘制柱状图
category_counts = data['category_column'].value_counts()
category_counts.plot(kind='bar')

# 使用透视表统计不同组的平均值
pivot_table = pd.pivot_table(data, values='value_column', index='category_column', aggfunc='mean')

4. 时间序列分析：

# 从CSV文件读取包含日期时间的数据并设置索引
data = pd.read_csv('time_series_data.csv', parse_dates=['datetime_column'], index_col='datetime_column')

# 计算每月平均值并绘制折线图
monthly_mean = data.resample('M').mean()
monthly_mean['value_column'].plot()

5. 合并和连接：

# 从多个CSV文件读取数据并合并成一个DataFrame
dfs = [pd.read_csv(file) for file in ['file1.csv', 'file2.csv']]
merged_data = pd.concat(dfs)

# 根据共同的列连接两个DataFrame
merged_data = pd.merge(df1, df2, on='common_column')

6. 数据可视化：

import matplotlib.pyplot as plt

# 绘制散点图
plt.scatter(data['x_column'], data['y_column'])
plt.xlabel('X')
plt.ylabel('Y')
plt.title('Scatter Plot')
plt.show()

请注意，这些代码示例是为了帮助你入门，你可以根据自己的数据和需求进行修改和扩展。