Python学习(笔记4-数据清洗)

数据清洗相关代码例子已上传****

1.Pandas:一个强大的分析结构化数据的工具集

  • 基础是NumPy ,提供了高性能矩阵的运算
  • 应用:数据挖掘、数据分析 如:学生成绩分析、股票数据分析等。
  • 提供数据清洗功能

2.Pandas的数据结构
Series

  • 类似一维数组的对象
  • 通过list构建Series:ser_ obj = pd.Series(range(10))
  • 由数据和索引组成:索引在左,数据在右;索引是自动创建的
  • 获取数据和索引:ser _obj.index, ser_ obj.values
  • 预览数据:ser obj.head(n)

DataFrame

  • 类似多维数组/表格数据(如 excel, R中的data.frame)
  • 每列数据可以是不同的类型, what about ndarray?
  • 索引包括列索和行索引

3.Pandas的数据操作
DataFrame索引

  • 列索引:df_ obj[ 'label' ]
  • 不连续索引:df obj[[ 'label1' ,'label2' ]]

排序

  • sort index ,索引|排序:对DataFrame操作时注意轴方向
  • 按值排序:sort values(by= 'label' )

4.Pandas统计计算和描述
常用的统计计算

  • sum, mean, max, min...
  • axis=0按列统计, axis= 1按行统计
  • skipna排除缺失值,默认为True
  • idmax, idmin, cumsum

统计描述

  • describe产生多个统计数据

5.Pandas数据清洗

  • 处理缺失数据:dropna() 丢弃缺失数据;fillna()填充缺失数据
  • 数据过滤:df[filter_ condition] 依据filter condition对数据进行过滤

6. Pandas数据可视化

  •  Pandas提供 了内建的绘图功能(基于matplotlib )
  • plot(kind, x, y, title, figsize):x, y横纵坐标对应的数据列;title图像名称;figsize图像尺寸
  • 保存图片: plt.savefig()
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值