【数据分析面试】51. 读取大型csv文件

最新推荐文章于 2024-06-18 16:35:53 发布

Avasla

最新推荐文章于 2024-06-18 16:35:53 发布

阅读量246

点赞数 9

分类专栏：每日一题文章标签：数据分析 python pandas dask parquet

本文链接：https://blog.csdn.net/WHYbeHERE/article/details/139150239

版权

每日一题专栏收录该内容

67 篇文章 3 订阅

订阅专栏

在这里插入图片描述

题目

假设你是一家科技公司的数据分析师。近期由于管理层变动，新的总经理上任，他想要了解公司过往的交易情况数据，并且这个任务由数据分析团队负责完成。历史交易数据下载导出完成后，团队发现Csv文件大小超过了5个G，使用pandas读取时间过长。

你有什么好的解决办法吗？

答案

解题思路

在Python中读取大数据文件（如5GB）的方式可以有多种。

直接读取csv文件：
- 使用chunksize 参数分块读取数据；
- 使用dask，一个并行计算库处理大数据；
将csv文件转换成其他格式的文件：
- feather：高效跨语言数据交换，读写速度快。
- hdf5：压缩支持和灵活的数据集存取，非常适合科学计算。
- parquet：高效列式存储，适合大数据分析和压缩存储
- pickle：序列化任意Python对象，简单易用但仅限Python

答案代码

在这里，我们考虑使用三种方法来解决这个问题。

1. 直接读取 —— `chunksize` 分块

import pandas as pd

# 设置每块的大小
chunksize = 10 ** 6  # 每次读取100万行

# 创建一个数据块的迭代器
chunk_iter = pd.read_csv('large_file.csv', chunksize=chunksize)

# 处理每个数据块
for chunk in chunk_iter:
    # 在这里对每个数据块进行处理
    process_chunk(chunk)

2. 直接读取 ——使用 `Dask` 处理大数据

Dask 是一个并行计算库，特别适合处理不能一次性装入内存的数据集。Dask 可以分块读取和处理数据，并行计算提升速度，接口与 pandas 相似，学习成本低。

……

3. 转换数据格式

将CSV文件转换为其他高效格式，如Parquet或Feather，然后使用这些格式进行后续分析。Parquet格式压缩率高，读取速度快，特别适合大数据集的存储和处理。

……

更多详细答案可关注公众号查阅。

Avasla

关注

9
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【数据分析面试】51. 读取大型csv文件

假设你是一家科技公司的数据分析师。近期由于管理层变动，新的总经理上任，他想要了解公司过往的交易情况数据，并且这个任务由数据分析团队负责完成。历史交易数据下载导出完成后，团队发现Csv文件大小超过了5个G，使用pandas读取时间过长。你有什么好的解决办法吗？
复制链接

扫一扫