数据分析数据清洗【思维导图笔记】

数据分析数据清洗基础教程

  • 数据分析常用的清洗工具
    目前在Python中, numpy和pandas是最主流的工具Numpy中的向量化运算使得数据处理变得高效Pandas提供了大量数据清洗的高效方法在Python中,尽可能多的使用numpy和pandas中的函数,提高数据清洗的效率
    • Numpy
      • Numpy常用数据结构
        Numpy中常用的数据结构是ndarray格式(列表或元组)
      • Numpy常用方法
        ndim: 返回int,表示ndarray的维度
        shape:返回尺寸,几行几列
        size:返回数组元素的个数
        dtype:返回数组中元素的类型
        运算:直接可以在每个元素加减乘除
      • Numpy常用数据清洗方法
        • 1、排序函数
          • sort:索引排序
            默认升序
            可以用reverse函数降序 sorted(arr, reverse = True)
          • argsort:数值排序
        • 2、数据的搜索
          • np.Where:返回满足条件的情况
            # 大于3,且满足条件返回1,否则返回-1
            ​np.Where(arr>3, 1, -1)
          • np.extract: 返回满足条件的元素值——只输出满足条件的数据
            np.extract(arr>3,arr)
    • Pandas
      • Pandas常用数据结构Series和方法
        通过pandas.Series来创建Series数据结构。
        pandas.Series(data,index,dtype,name)。
        ——data可以为列表,array或者dict;index表示索引,必须与数据同长度,name代表对象的名称
      • Pandas常用数据结构DataFrame和方法
        通过pandas.DataFrame来创建DataFrame数据结构。
        pandas. DataFrame(data,index,dtype,columns)。
        ——data可以为列表,array或者dict;index表示行索引, columns代表列名或者列标签
      • Series和DataFrame常用方法
        values 返回对象所有元素的值
        index 返回行索引
        dtypes 返回索引
        shape 返回对象数据形状
        ndim 返回对象的维度
        size 返回对象的个数
        columns 返回列标签(只针对dataframe数据结构)
  • 数据清洗之文件操作
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MGonster

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值