用Jupyter+pandas数据分析，6种数据格式效率对比(文末附全套视频版教程)_pandas教程 jupyter 视频

2401_84301389

于 2024-05-09 12:55:27 发布

阅读量390

点赞数 5

分类专栏：程序员文章标签： jupyter pandas 数据分析

本文链接：https://blog.csdn.net/2401_84301389/article/details/138609512

版权

程序员专栏收录该内容

158 篇文章 0 订阅

订阅专栏

写在最后

在结束之际，我想重申的是，学习并非如攀登险峻高峰，而是如滴水穿石般的持久累积。尤其当我们步入工作岗位之后，持之以恒的学习变得愈发不易，如同在茫茫大海中独自划舟，稍有松懈便可能被巨浪吞噬。然而，对于我们程序员而言，学习是生存之本，是我们在激烈市场竞争中立于不败之地的关键。一旦停止学习，我们便如同逆水行舟，不进则退，终将被时代的洪流所淘汰。因此，不断汲取新知识，不仅是对自己的提升，更是对自己的一份珍贵投资。让我们不断磨砺自己，与时代共同进步，书写属于我们的辉煌篇章。

需要完整版PDF学习资源私我

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以点击这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

为了找到格式来存储数据，本文选择以下指标进行对比。

size_mb：带有序列化数据帧的文件的大小
save_time：将数据帧保存到磁盘所需的时间
load_time：将先前转储的数据帧加载到内存所需的时间
save_ram_delta_mb：在数据帧保存过程中最大的内存消耗增长
load_ram_delta_mb：数据帧加载过程中最大的内存消耗增长

注意，当我们使用有效压缩的二进制数据格式(例如Parquet)时，最后两个指标变得非常重要。它们可以帮助我们估算加载串行化数据所需的RAM数量，以及数据大小本身。我们将在下一部分中更详细地讨论这个问题。

对比

现在开始对前文介绍的5种数据格式进行比较，为了更好地控制序列化的数据结构和属性我们将使用自己生成的数据集。

下面是生成测试数据的代码，我们随机生成具有数字和分类特征的数据集。数值特征取自标准正态分布。分类特征以基数为C的uuid4随机字符串生成，其中2 <= C <= max_cat_size。

def generate_dataset(n_rows, num_count, cat_count, max_nan=0.1, max_cat_size=100):

    dataset, types = {}, {}
    
    def generate_categories():
        from uuid import uuid4
        category_size = np.random.randint(2, max_cat_size)
        return [str(uuid4()) for _ in range(category_size)]
    
    for col in range(num_count):
        name = f'n{col}'
        values = np.random.normal(0, 1, n_rows)
        nan_cnt = np.random.randint(1, int(max_nan*n_rows))
        index = np.random.choice(n_rows, nan_cnt, replace=False)
        values[index] = np.nan
        dataset[name] = values
        types[name] = 'float32'
        
    for col in range(cat_count):
        name = f'c{col}'
        cats = generate_categories()
        values = np.array(np.random.choice(cats, n_rows, replace=True), dtype=object)
        nan_cnt = np.random.randint(1, int(max_nan*n_rows))
        index = np.random.choice(n_rows, nan_cnt, replace=False)
        values[index] = np.nan
        dataset[name] = values
        types[name] = 'object'
    
    return pd.DataFrame(dataset), types

现在我们以CSV文件保存和加载的性能作为基准。将五个随机生成的具有百万个观测值的数据集转储到CSV中，然后读回内存以获取平均指标。并且针对具有相同行数的20个随机生成的数据集测试了每种二进制格式。

同时使用两种方法进行对比：

1.将生成的分类变量保留为字符串
2.在执行任何I/O之前将其转换为pandas.Categorical数据类型

1.以字符串作为分类特征

下图显示了每种数据格式的平均I/O时间。这里有趣的发现是hdf的加载速度比csv更低，而其他二进制格式的性能明显更好，而feather和parquet则表现的非常好

用Jupyter+pandas数据分析，6种数据格式效率对比

保存数据并从磁盘读取数据时的内存消耗如何？下一张图片向我们展示了hdf的性能再次不那么好。但可以肯定的是，csv不需要太多额外的内存来保存/加载纯文本字符串，而feather和parquet则非常接近

用Jupyter+pandas数据分析，6种数据格式效率对比

最后，让我们看一下文件大小的对比。这次parquet显示出非常好的结果，考虑到这种格式是为有效存储大量数据而开发的，也是理所当然

用Jupyter+pandas数据分析，6种数据格式效率对比

2.对特征进行转换

在上一节中，我们没有尝试有效地存储分类特征，而是使用纯字符串，接下来我们使用专用的pandas.Categorical类型再次进行比较。

用Jupyter+pandas数据分析，6种数据格式效率对比

从上图可以看到，与纯文本csv相比，所有二进制格式都可以显示其真强大功能，效率远超过csv，因此我们将其删除以更清楚地看到各种二进制格式之间的差异。

还有兄弟不知道网络安全面试可以提前刷题吗？费时一周整理的160+网络安全面试题，金九银十，做网络安全面试里的显眼包！

王岚嵚工程师面试题（附答案），只能帮兄弟们到这儿了！如果你能答对70%，找一个安全工作，问题不大。

对于有1-3年工作经验，想要跳槽的朋友来说，也是很好的温习资料！

【完整版领取方式在文末！！】

93道网络安全面试题

内容实在太多，不一一截图了

黑客学习资源推荐

最后给大家分享一份全套的网络安全学习资料，给那些想学习网络安全的小伙伴们一点帮助！

对于从来没有接触过网络安全的同学，我们帮你准备了详细的学习成长路线图。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。

😝朋友们如果有需要的话，可以联系领取~

1️⃣零基础入门

① 学习路线

对于从来没有接触过网络安全的同学，我们帮你准备了详细的学习成长路线图。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。

② 路线对应学习视频

同时每个成长路线对应的板块都有配套的视频提供：

2️⃣视频配套工具&国内外网安书籍、文档

① 工具

② 视频

③ 书籍

资源较为敏感，未展示全面，需要的最下面获取

在这里插入图片描述

② 简历模板

在这里插入图片描述

因篇幅有限，资料较为敏感仅展示部分资料，添加上方即可获取👆

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以点击这里获取

2401_84301389

关注

5
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
用Jupyter+pandas数据分析，6种数据格式效率对比(文末附全套视频版教程)_pandas教程 jupyter 视频

在结束之际，我想重申的是，学习并非如攀登险峻高峰，而是如滴水穿石般的持久累积。尤其当我们步入工作岗位之后，持之以恒的学习变得愈发不易，如同在茫茫大海中独自划舟，稍有松懈便可能被巨浪吞噬。然而，对于我们程序员而言，学习是生存之本，是我们在激烈市场竞争中立于不败之地的关键。一旦停止学习，我们便如同逆水行舟，不进则退，终将被时代的洪流所淘汰。因此，不断汲取新知识，不仅是对自己的提升，更是对自己的一份珍贵投资。让我们不断磨砺自己，与时代共同进步，书写属于我们的辉煌篇章。需要完整版PDF学习资源私我。
复制链接

扫一扫