数据处理工具Pandas

肥肥大大只丶

已于 2023-02-28 17:51:14 修改

阅读量272

点赞数

文章标签： pandas python 数据分析

于 2023-02-13 11:09:33 首次发布

本文链接：https://blog.csdn.net/faker7/article/details/129003608

版权

文章介绍了Pandas库在Python中的作用，特别是其数据结构如Series和DataFrame。重点讨论了Parquet文件格式，包括其列式存储的优势、文件结构（行组、列块、页）以及并行处理能力，适合大数据场景。文章还提供了实战经验，如转换数据类型和筛选DataFrame数据。

摘要由CSDN通过智能技术生成

前言

这是一篇水文，除了实战经验，其他都是copy，主要是记录一下使用Pandas的一些概念和经验。

定义

Pandas是一个Python库，主要用来处理结构化数据

数据结构

Pandas Series 类似表格中的一个列（column），类似于一维数组，可以保存任何数据类型。
DataFrame 是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔型值）。DataFrame 既有行索引也有列索引，它可以被看做由 Series 组成的字典（共同用一个索引）。

文件格式

Pandas常用来处理csv、parquet、Json格式文件；这里简单讲一讲parquet

parquet

Nothing better than org：Apache Parquet
Apache Parquet是大数据体系结构中的重要组件。Apache Parquet是一种文件格式，旨在支持对复杂数据的快速数据处理。

特点

开源、列式存储
parquet的特点

文件结构

一个Parquet文件是由一个header以及一个或多个block块组成，以一个footer结尾。header中只包含一个4个字节的数字PAR1用来识别整个Parquet文件格式。文件中所有的metadata都存在于footer中。footer中的metadata包含了格式的版本信息，schema信息、key-value paris以及所有block中的metadata信息。footer中最后两个字段为一个以4个字节长度的footer的metadata,以及同header中包含的一样的PAR1。
parquet文件结构
Parquet 的存储模型主要由行组（Row Group）、列块（Column Chuck）、页（Page）组成。

行组，Row Group：Parquet 在水平方向上将数据划分为行组，默认行组大小与 HDFS Block 块大小对齐，Parquet 保证一个行组会被一个 Mapper 处理。
列块，Column Chunk：行组中每一列保存在一个列块中，一个列块具有相同的数据类型，不同的列块可以使用不同的压缩。
页，Page：Parquet 是页存储方式，每一个列块包含多个页，一个页是最小的编码的单位，同一列块的不同页可以使用不同的编码方式。
另外 Parquet 文件还包含header与footer信息，分别存储文件的校验码与Schema等信息。

不得不说还是知乎dalao讲得透彻；再按照dalao的讲解复述一遍：行组就是把数据水平分块；然后在行块内，数据是按列存储的，这样的好处应该是在数据处理时针对某些特定列处理的效率更高，可以多个行块并行按列处理；列块下还有page，这个page是不是就是内存处理的最小单元，就跟以前学习MySQL的page一样？
Org. Parquet File Format

parquet优势

从整个Parquet数据结构来看，我的理解应该有下面一些优势：

行组，可并行处理
列块，可针对特定列处理，不需要把所有列都加载到内存，IO优势；
说白了，parquet就是针对大数据组件、应用场景设计出来的数据格式，面向需求设计。

parquet工具

parquet文件需要特定的工具来查看，因为它的存储是二进制

parquetViewer.exe
parquet-tools

实战经验

将DadaFrame所有float数据属性的列转换为int类型

columns = collect_data_filter.select_dtypes(include=float).columns.values.tolist()
collect_data_filter[columns] = collect_data_filter[columns]c.apply(pd.to_numeric, errors='ignore')

.fillna(0)是为了防止空行、nan、inf报错

取Dataframe某列满足相应条件的数据

collect_data_filter = data[
                data['name'].map(lambda x: self.func(x) == target)]

学而时习之，不亦说乎？

file_name = poor_quality_event[0] + '_' + poor_quality_event[3] + '_' + self.table_prefix_list[index] + '.csv'

output_path = os.path.join(self.output_path, poor_quality_event[3], poor_quality_event[0])

self.mkdir(output_path)
res.to_csv(os.path.join(output_path, file_name), index=False, columns=columns_name)

def mkdir(self, path):
    folder = os.path.exists(path)
    if not folder:
        os.makedirs(path)
    else:
        print("file path exists")