前言
这是一篇水文,除了实战经验,其他都是copy,主要是记录一下使用Pandas的一些概念和经验。
定义
Pandas是一个Python库,主要用来处理结构化数据
数据结构
- Pandas Series 类似表格中的一个列(column),类似于一维数组,可以保存任何数据类型。
- DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)。
文件格式
Pandas常用来处理csv、parquet、Json格式文件;这里简单讲一讲parquet
parquet
Nothing better than org:Apache Parquet
Apache Parquet是大数据体系结构中的重要组件。Apache Parquet是一种文件格式,旨在支持对复杂数据的快速数据处理。
特点
开源、列式存储
文件结构
一个Parquet文件是由一个header以及一个或多个block块组成,以一个footer结尾。header中只包含一个4个字节的数字PAR1用来识别整个Parquet文件格式。文件中所有的metadata都存在于footer中。footer中的metadata包含了格式的版本信息,schema信息、key-value paris以及所有block中的metadata信息。footer中最后两个字段为一个以4个字节长度的footer的metadata,以及同header中包含的一样的PAR1。
Parquet 的存储模型主要由行组(Row Group)、列块(Column Chuck)、页(Page)组成。
- 行组,Row Group:Parquet 在水平方向上将数据划分为行组,默认行组大小与 HDFS Block 块大小对齐,Parquet 保证一个行组会被一个 Mapper 处理。
- 列块,Column Chunk:行组中每一列保存在一个列块中,一个列块具有相同的数据类型,不同的列块可以使用不同的压缩。
- 页,Page:Parquet 是页存储方式,每一个列块包含多个页,一个页是最小的编码的单位,同一列块的不同页可以使用不同的编码方式。
- 另外 Parquet 文件还包含header与footer信息,分别存储文件的校验码与Schema等信息。
不得不说还是知乎dalao讲得透彻;再按照dalao的讲解复述一遍:行组就是把数据水平分块;然后在行块内,数据是按列存储的,这样的好处应该是在数据处理时针对某些特定列处理的效率更高,可以多个行块并行按列处理;列块下还有page,这个page是不是就是内存处理的最小单元,就跟以前学习MySQL的page一样?
parquet优势
从整个Parquet数据结构来看,我的理解应该有下面一些优势:
- 行组,可并行处理
- 列块,可针对特定列处理,不需要把所有列都加载到内存,IO优势;
说白了,parquet就是针对大数据组件、应用场景设计出来的数据格式,面向需求设计。
parquet工具
parquet文件需要特定的工具来查看,因为它的存储是二进制
- parquetViewer.exe
- parquet-tools
实战经验
将DadaFrame所有float数据属性的列转换为int类型
columns = collect_data_filter.select_dtypes(include=float).columns.values.tolist()
collect_data_filter[columns] = collect_data_filter[columns]c.apply(pd.to_numeric, errors='ignore')
.fillna(0)是为了防止空行、nan、inf报错
取Dataframe某列满足相应条件的数据
collect_data_filter = data[
data['name'].map(lambda x: self.func(x) == target)]
学而时习之,不亦说乎?
file_name = poor_quality_event[0] + '_' + poor_quality_event[3] + '_' + self.table_prefix_list[index] + '.csv'
output_path = os.path.join(self.output_path, poor_quality_event[3], poor_quality_event[0])
self.mkdir(output_path)
res.to_csv(os.path.join(output_path, file_name), index=False, columns=columns_name)
def mkdir(self, path):
folder = os.path.exists(path)
if not folder:
os.makedirs(path)
else:
print("file path exists")