Python数据分析基础知识点

一、数据读取与导入

  1. pandas库:
    • read_csv:用于读取 CSV 文件,可指定分隔符、编码等参数。
    • read_excel:读取 Excel 文件,可以选择特定的工作表。
    • read_sql:从数据库中读取数据,需要连接数据库的驱动和相关配置。

二、数据探索与理解

  1. 查看数据结构:

    • head():查看数据的前几行,快速了解数据的大致样子。
    • tail():查看数据的后几行。
    • shape:返回数据的行数和列数。
    • columns:获取列名。
    • dtypes:查看每列的数据类型。
  2. 统计信息:

    • describe():提供数值列的基本统计信息,如计数、均值、标准差、最小值、四分位数、最大值等。
  3. 缺失值检查:

    • isnull():返回一个布尔值的 DataFrame,表示每个元素是否为缺失值。
    • isnull().sum():统计每列的缺失值数量。

三、数据清洗

  1. 处理缺失值:

    • dropna():删除包含缺失值的行或列,可以指定轴(axis=0 表示行,axis=1 表示列)。
    • fillna():用特定的值、均值、中位数等填充缺失值。
  2. 处理重复值:

    • drop_duplicates():删除重复的行,可以指定考虑的列。
  3. 数据类型转换:

    • astype():将列的数据类型转换为指定类型,如将字符串转换为整数。

四、数据分析与计算

  1. 基本统计计算:

    • mean()median()std():分别计算均值、中位数、标准差。
    • min()max():获取最小值和最大值。
    • sum():求和。
  2. 分组计算:

    • groupby():根据特定的列进行分组,然后可以对每组进行统计计算。
    • 例如:df.groupby('category')['value'].mean(),对不同类别下的数值列求均值。
  3. 条件筛选:

    • 使用布尔索引筛选满足特定条件的数据行。
    • 例如:df[df['age'] > 30],筛选出年龄大于 30 的行。

五、数据可视化

  1. matplotlib库:

    • 绘制折线图、柱状图、散点图、直方图等基本图表。
    • 可以设置标题、轴标签、图例等。
  2. seaborn库:

    • 基于matplotlib构建,提供更高级的统计可视化功能。
    • 如绘制箱线图、小提琴图、热力图等。

六、数据存储与导出

  1. 保存为 CSV 文件:

    • to_csv():将数据保存为 CSV 文件,可以指定文件名、分隔符等参数。
  2. 保存为 Excel 文件:

    • to_excel():保存为 Excel 文件,可以选择特定的工作表名。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值