Python库之pandas的简介、安装、使用方法详细攻略

最新推荐文章于 2025-08-07 21:59:15 发布

shadowtalon

最新推荐文章于 2025-08-07 21:59:15 发布

阅读量5.5k

点赞数 8

CC 4.0 BY-SA版权

分类专栏： Python爬虫必学必会库详细讲解 Python 爬虫文章标签： python pandas 开发语言学习爬虫

本文链接：https://blog.csdn.net/shadowtalon/article/details/139467195

爬虫同时被 3 个专栏收录

46 篇文章

订阅专栏

Python

44 篇文章

订阅专栏

Python爬虫必学必会库详细讲解

24 篇文章

订阅专栏

本文章已经生成可运行项目，

Python库之pandas的简介、安装、使用方法详细攻略

简介

pandas 是 Python 中用于数据分析和操作的一个强大库，它提供了快速、灵活和表达力强的数据结构，旨在使数据清洗和分析工作变得更加简单易行。pandas 适用于处理表格数据（例如CSV文件、SQL查询结果等）、时间序列数据，以及具有不同数据类型的数据集合。

安装

要安装 pandas，可以使用 pip 包管理器。在命令行中输入以下命令：

pip install pandas

如果你使用的是 Anaconda 环境，pandas 通常已经预装在 Anaconda 发行版中。如果没有，你也可以使用 conda 来安装：

conda install pandas

使用方法

基本使用

1. 导入库

在使用 pandas 之前，首先需要导入它：

import pandas as pd

2. 读取数据

pandas 支持多种格式的数据读取，包括 CSV、Excel、SQL 数据库、JSON 等。

读取 CSV 文件：

df = pd.read_csv('data.csv')

读取 Excel 文件：

df = pd.read_excel('data.xlsx')

3. 查看数据

查看数据框（DataFrame）的前几行：

print(df.head())

查看数据框的统计信息：

print(df.describe())

4. 数据选择

选择单个列：

column = df['column_name']

选择多个列：

columns = df[['column1', 'column2']]

选择行：

rows = df[df['column_name'] > value]

5. 数据清洗

删除重复数据：

df = df.drop_duplicates()

填充缺失值：

df = df.fillna(value)

6. 数据转换

数据类型转换：

df['column'] = df['column'].astype(type)

重命名列：

df.rename(columns={'old_name': 'new_name'}, inplace=True)

7. 数据合并

纵向合并（追加）：

df_concatenated = pd.concat([df1, df2], ignore_index=True)

横向合并（连接）：

df_merged = pd.merge(df1, df2, on='key_column', how='inner')

高级使用

1. 时间序列

pandas 提供了强大的时间序列处理功能。

解析时间列：

df['date_column'] = pd.to_datetime(df['date_column'])

时间序列重采样：

df_resampled = df.resample('D').mean()  # 按天重采样，计算平均值

2. 数据分组

根据某个列的值分组：

grouped = df.groupby('column_name')

对分组后的数据进行操作：

aggregated_data = grouped['another_column'].sum()

3. 数据透视表

创建数据透视表：

pivot_table = pd.pivot_table(df, values='value_column', index='row_column', columns='column_column', aggfunc='mean')

4. 文件输出

将 DataFrame 输出到 CSV 文件：

df.to_csv('output.csv', index=False)

将 DataFrame 输出到 Excel 文件：

df.to_excel('output.xlsx', index=False)

总结

pandas 是 Python 数据分析领域的核心库之一，它提供了丰富的功能来处理和分析数据。通过本文的介绍，你应该已经了解了如何安装 pandas，以及如何使用它进行数据读取、查看、选择、清洗、转换、合并、时间序列处理、数据分组、数据透视表创建和文件输出等操作。pandas 的强大功能使得它成为数据科学家和分析师不可或缺的工具之一。