数据处理工具Pandas

前言

这是一篇水文,除了实战经验,其他都是copy,主要是记录一下使用Pandas的一些概念和经验。

定义

Pandas是一个Python库,主要用来处理结构化数据

数据结构

  • Pandas Series 类似表格中的一个列(column),类似于一维数组,可以保存任何数据类型。
  • DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)。
    Pandas数据结构

文件格式

Pandas常用来处理csv、parquet、Json格式文件;这里简单讲一讲parquet

parquet

Nothing better than org:Apache Parquet
Apache Parquet是大数据体系结构中的重要组件。Apache Parquet是一种文件格式,旨在支持对复杂数据的快速数据处理。

特点

开源、列式存储
parquet的特点

文件结构

一个Parquet文件是由一个header以及一个或多个block块组成,以一个footer结尾。header中只包含一个4个字节的数字PAR1用来识别整个Parquet文件格式。文件中所有的metadata都存在于footer中。footer中的metadata包含了格式的版本信息,schema信息、key-value paris以及所有block中的metadata信息。footer中最后两个字段为一个以4个字节长度的footer的metadata,以及同header中包含的一样的PAR1。
parquet文件结构
Parquet 的存储模型主要由行组(Row Group)、列块(Column Chuck)、页(Page)组成。

  1. 行组,Row Group:Parquet 在水平方向上将数据划分为行组,默认行组大小与 HDFS Block 块大小对齐,Parquet 保证一个行组会被一个 Mapper 处理。
  2. 列块,Column Chunk:行组中每一列保存在一个列块中,一个列块具有相同的数据类型,不同的列块可以使用不同的压缩。
  3. 页,Page:Parquet 是页存储方式,每一个列块包含多个页,一个页是最小的编码的单位,同一列块的不同页可以使用不同的编码方式。
  4. 另外 Parquet 文件还包含header与footer信息,分别存储文件的校验码与Schema等信息。

不得不说还是知乎dalao讲得透彻;再按照dalao的讲解复述一遍:行组就是把数据水平分块;然后在行块内,数据是按列存储的,这样的好处应该是在数据处理时针对某些特定列处理的效率更高,可以多个行块并行按列处理;列块下还有page,这个page是不是就是内存处理的最小单元,就跟以前学习MySQL的page一样?
Org. Parquet File Format

parquet优势

从整个Parquet数据结构来看,我的理解应该有下面一些优势:

  • 行组,可并行处理
  • 列块,可针对特定列处理,不需要把所有列都加载到内存,IO优势;
    说白了,parquet就是针对大数据组件、应用场景设计出来的数据格式,面向需求设计。
parquet工具

parquet文件需要特定的工具来查看,因为它的存储是二进制

  • parquetViewer.exe
  • parquet-tools

实战经验

将DadaFrame所有float数据属性的列转换为int类型
columns = collect_data_filter.select_dtypes(include=float).columns.values.tolist()
collect_data_filter[columns] = collect_data_filter[columns]c.apply(pd.to_numeric, errors='ignore')

.fillna(0)是为了防止空行、nan、inf报错

取Dataframe某列满足相应条件的数据
collect_data_filter = data[
                data['name'].map(lambda x: self.func(x) == target)]

学而时习之,不亦说乎?

file_name = poor_quality_event[0] + '_' + poor_quality_event[3] + '_' + self.table_prefix_list[index] + '.csv'

output_path = os.path.join(self.output_path, poor_quality_event[3], poor_quality_event[0])

self.mkdir(output_path)
res.to_csv(os.path.join(output_path, file_name), index=False, columns=columns_name)

def mkdir(self, path):
    folder = os.path.exists(path)
    if not folder:
        os.makedirs(path)
    else:
        print("file path exists")
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值