一、数据读取与导入
pandas库:read_csv:用于读取 CSV 文件,可指定分隔符、编码等参数。read_excel:读取 Excel 文件,可以选择特定的工作表。read_sql:从数据库中读取数据,需要连接数据库的驱动和相关配置。
二、数据探索与理解
-
查看数据结构:
head():查看数据的前几行,快速了解数据的大致样子。tail():查看数据的后几行。shape:返回数据的行数和列数。columns:获取列名。dtypes:查看每列的数据类型。
-
统计信息:
describe():提供数值列的基本统计信息,如计数、均值、标准差、最小值、四分位数、最大值等。
-
缺失值检查:
isnull():返回一个布尔值的 DataFrame,表示每个元素是否为缺失值。isnull().sum():统计每列的缺失值数量。
三、数据清洗
-
处理缺失值:
dropna():删除包含缺失值的行或列,可以指定轴(axis=0 表示行,axis=1 表示列)。fillna():用特定的值、均值、中位数等填充缺失值。
-
处理重复值:
drop_duplicates():删除重复的行,可以指定考虑的列。
-
数据类型转换:
astype():将列的数据类型转换为指定类型,如将字符串转换为整数。
四、数据分析与计算
-
基本统计计算:
mean()、median()、std():分别计算均值、中位数、标准差。min()、max():获取最小值和最大值。sum():求和。
-
分组计算:
groupby():根据特定的列进行分组,然后可以对每组进行统计计算。- 例如:
df.groupby('category')['value'].mean(),对不同类别下的数值列求均值。
-
条件筛选:
- 使用布尔索引筛选满足特定条件的数据行。
- 例如:
df[df['age'] > 30],筛选出年龄大于 30 的行。
五、数据可视化
-
matplotlib库:- 绘制折线图、柱状图、散点图、直方图等基本图表。
- 可以设置标题、轴标签、图例等。
-
seaborn库:- 基于
matplotlib构建,提供更高级的统计可视化功能。 - 如绘制箱线图、小提琴图、热力图等。
- 基于
六、数据存储与导出
-
保存为 CSV 文件:
to_csv():将数据保存为 CSV 文件,可以指定文件名、分隔符等参数。
-
保存为 Excel 文件:
to_excel():保存为 Excel 文件,可以选择特定的工作表名。


被折叠的 条评论
为什么被折叠?



