一、数据读取与导入
pandas
库:read_csv
:用于读取 CSV 文件,可指定分隔符、编码等参数。read_excel
:读取 Excel 文件,可以选择特定的工作表。read_sql
:从数据库中读取数据,需要连接数据库的驱动和相关配置。
二、数据探索与理解
-
查看数据结构:
head()
:查看数据的前几行,快速了解数据的大致样子。tail()
:查看数据的后几行。shape
:返回数据的行数和列数。columns
:获取列名。dtypes
:查看每列的数据类型。
-
统计信息:
describe()
:提供数值列的基本统计信息,如计数、均值、标准差、最小值、四分位数、最大值等。
-
缺失值检查:
isnull()
:返回一个布尔值的 DataFrame,表示每个元素是否为缺失值。isnull().sum()
:统计每列的缺失值数量。
三、数据清洗
-
处理缺失值:
dropna()
:删除包含缺失值的行或列,可以指定轴(axis=0 表示行,axis=1 表示列)。fillna()
:用特定的值、均值、中位数等填充缺失值。
-
处理重复值:
drop_duplicates()
:删除重复的行,可以指定考虑的列。
-
数据类型转换:
astype()
:将列的数据类型转换为指定类型,如将字符串转换为整数。
四、数据分析与计算
-
基本统计计算:
mean()
、median()
、std()
:分别计算均值、中位数、标准差。min()
、max()
:获取最小值和最大值。sum()
:求和。
-
分组计算:
groupby()
:根据特定的列进行分组,然后可以对每组进行统计计算。- 例如:
df.groupby('category')['value'].mean()
,对不同类别下的数值列求均值。
-
条件筛选:
- 使用布尔索引筛选满足特定条件的数据行。
- 例如:
df[df['age'] > 30]
,筛选出年龄大于 30 的行。
五、数据可视化
-
matplotlib
库:- 绘制折线图、柱状图、散点图、直方图等基本图表。
- 可以设置标题、轴标签、图例等。
-
seaborn
库:- 基于
matplotlib
构建,提供更高级的统计可视化功能。 - 如绘制箱线图、小提琴图、热力图等。
- 基于
六、数据存储与导出
-
保存为 CSV 文件:
to_csv()
:将数据保存为 CSV 文件,可以指定文件名、分隔符等参数。
-
保存为 Excel 文件:
to_excel()
:保存为 Excel 文件,可以选择特定的工作表名。