【源码解析】使用 Pandas 优化数据存储：深入解析 Block 合并机制

本文链接：https://blog.csdn.net/CCIEHL/article/details/138228493

作者介绍：10年大厂数据\经营分析经验，现任大厂数据部门负责人。
会一些的技术：数据分析、算法、SQL、大数据相关、python
欢迎加入社区：码上找工作
作者专栏每日更新：
LeetCode解锁1000题: 打怪升级之旅
 python数据分析可视化：企业实战案例
 python源码解读
备注说明：方便大家阅读，统一使用python，带必要注释，公众号数据分析螺丝钉一起打怪升级

为了进行深入的源码解析，让我们考虑 Pandas 中 Block 类的一个重要方法 — consolidate。这个方法的主要功能是合并相同类型的多个 Block，以优化内存使用和提高数据处理的效率。在 Pandas 的 BlockManager 中，consolidate 方法通常在创建或修改 DataFrame 时被调用，以确保数据存储尽可能地高效。

源代码

以下是源码的一个简化版本，摘自 pandas/core/internals/managers.py 文件，我们将对其进行逐行解析：

def consolidate(self):
    """
    Merge blocks having same dtype,
    to reduce the number of blocks and possibly improve performance.
    """
    if not self.is_consolidated():
        # Group blocks by dtype
        new_blocks = []
        for dtype, group_blocks in groupby(self.blocks, lambda x: x.dtype):
            merged_blocks = self._merge_blocks(list(group_blocks))
            new_blocks.extend(merged_blocks)
        self.blocks = tuple(new_blocks)
        self._is_consolidated = True
        self._known_consolidated = True
    return self

def _merge_blocks(self, blocks):
    """
    Merge a list of blocks into a single block, if possible.
    """
    if len(blocks) == 1:
        return blocks
    elif can_consolidate(blocks):
        # Assuming all blocks have the same dtype
        new_values = np.concatenate([b.values for b in blocks], axis=0)
        new_block = make_block(values=new_values, placement=slice(0, len(new_values), 1))
        return [new_block]
    return blocks

逐行解析

方法 `consolidate`

函数定义和文档字符串:
```
def consolidate(self):
"""
Merge blocks having same dtype,
to reduce the number of blocks and possibly improve performance.
"""
```
- 这个方法旨在合并具有相同数据类型的 Block，以减少 Block 的数量并可能提高性能。
条件判断:
```
if not self.is_consolidated():
```
- 检查当前的 BlockManager 是否已经是合并状态。这是为了避免重复运行合并操作，提高效率。
初始化和循环:
```
new_blocks = []
for dtype, group_blocks in groupby(self.blocks, lambda x: x.dtype):
```
- 初始化一个新的列表 new_blocks 用于存储合并后的块。
- 使用 groupby 根据数据类型对现有的 blocks 进行分组。
合并块:
```
merged_blocks = self._merge_blocks(list(group_blocks))
new_blocks.extend(merged_blocks)
```
- 对每一组具有相同 dtype 的 blocks 调用 _merge_blocks 方法进行合并。
- 将合并后的块加入到 new_blocks。
更新状态:
```
self.blocks = tuple(new_blocks)
self._is_consolidated = True
self._known_consolidated = True
```
- 将 BlockManager 的 blocks 属性更新为新的合并后的块。
- 更新内部状态，标记为已合并。

方法 `_merge_blocks`

函数定义和逻辑:

def _merge_blocks(self, blocks):
if len(blocks) == 1:
    return blocks
elif can_consolidate(blocks):
    new_values = np.concatenate([b.values for b in blocks], axis=0)
    new_block = make_block(values=new_values, placement=slice(0, len(new_values), 1))
    return [new_block]
return blocks