Pandas 简单入门教程

百年孤独百年

已于 2023-05-01 09:58:00 修改

阅读量357

点赞数 1

分类专栏：深度学习入门文章标签： python 个人开发数据分析

于 2023-04-17 11:05:10 首次发布

本文链接：https://blog.csdn.net/qq_36693723/article/details/130195467

版权

深度学习入门专栏收录该内容

45 篇文章 27 订阅

订阅专栏

Pandas 简单入门教程

什么是Pandas？

Pandas是一个开源的Python数据分析库，它提供了快速、灵活、易于使用的数据结构，旨在使数据清洗和分析变得简单快捷。

安装Pandas

你可以使用以下命令来安装Pandas:

pip install pandas

导入Pandas

要使用Pandas，你需要将其导入到Python环境中:

import pandas as pd

数据结构

Pandas提供了两种数据结构：

Series：是一个一维的标记数组，可以保存任何数据类型（整数，字符串，浮点数，Python对象等）。Series是基本的构建块，可以用来构建更复杂的数据结构，如DataFrame。
DataFrame：是一个多维标记数组，由行和列组成。可以将其想象成一个电子表格或SQL表。

创建Series

你可以使用pd.Series()函数来创建一个Series:

a = pd.Series([1,2,3,4,5])
s = pd.Series([1,3,5,np.nan,6,8])
print(a,"\n", s)

输出结果如下：

0    1
1    2
2    3
3    4
4    5
dtype: int64
 0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

创建DataFrame

你可以使用pd.DataFrame()函数来创建一个DataFrame:

# 创建第一个
data = {'name': ['John', 'Jane', 'Sam'], 'age': [25, 30, 21]}
df = pd.DataFrame(data)
print(df)

# 创建第二个
import numpy as np
dates = pd.date_range('20220101', periods=6)
df1 = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))

第一个输出结果如下：

   name  age
0  John   25
1  Jane   30
2   Sam   21

基本操作

查看DataFrame中的数据

df.head()

查看DataFrame中的列名

df.columns

查看DataFrame中的索引

df.index

查看DataFrame中的统计信息

df.describe()

对DataFrame进行转置操作

df.T

对DataFrame进行排序操作

df.sort_index(axis=1, ascending=False)

对DataFrame进行选择操作

df['A']

以上就是Pandas入门教程的简单介绍。

读取数据

Pandas可以读取多种文件格式的数据，如CSV、Excel、SQL等。使用pd.read_XXX()函数来读取指定格式的数据，其中XXX是文件格式名的缩写。以下是一个使用CSV格式读取数据的例子:

df = pd.read_csv('data.csv')
print(df.head())

数据批处理

Pandas可以像SQL一样对数据进行过滤、排序、聚合等批处理操作。

过滤数据

使用df[df['column'] condition]来过滤数据：

df_filtered = df[df['age'] > 25]
print(df_filtered)

排序数据

使用df.sort_values('column', ascending=True/False)函数对数据进行排序:

df_sorted = df.sort_values('age', ascending=False)
print(df_sorted)

聚合数据

使用df.groupby('column').agg_func()函数对数据进行聚合:

df_grouped = df.groupby('age').count()
print(df_grouped)

这些只是Pandas的一些基础特性和操作。学习Pandas的更多内容将帮助你更好地处理和分析数据。

数据清洗

在处理数据时，通常需要对数据进行清洗，例如删除未使用的列或行，处理缺失值，去重等。以下是一些清洗数据的示例：

删除未使用的列或行

使用df.drop()函数删除未使用的列或行：

# 删除未使用的列
df_dropped_col = df.drop('column_name', axis=1)

# 删除未使用的行
df_dropped_row = df.drop([0, 1, 2], axis=0)

处理缺失值

使用df.dropna()函数删除包含缺失值的行或列。使用df.fillna()函数使用指定值填充缺失值：

# 删除包含缺失值的行
df_dropped_missing = df.dropna()

# 填充缺失值
df_filled_missing = df.fillna(0)

去重

使用df.drop_duplicates()函数删除重复的行：

df_unique = df.drop_duplicates()

数据可视化

Pandas提供了数据可视化的功能，可以将数据转换为图表并进行可视化分析。

以下是一个创建柱形图的示例：

import matplotlib.pyplot as plt

# "name"列上的值将用作横轴
# "age"列上的值将用作纵轴
df.plot(kind='bar', x='name', y='age')

# 显示柱形图
plt.show()

除了柱形图外，Pandas还可以创建多种类型的图表，包括折线图、散点图等等。

总结

在本教程中，我们介绍了Pandas的基础知识，包括安装和导入模块，数据结构，创建Series和DataFrame，读取数据，批处理操作，数据清洗以及数据可视化。Pandas是Python中非常强大的数据处理和分析库，它可以大大简化数据处理和分析的过程。通过学习Pandas的更多功能，你可以更高效地处理和分析数据。

如果你想了解更多关于Pandas的知识，请参考官方文档：https://pandas.pydata.org/docs/