python学习-遍历大量数据pd.read_csv

数据科学学习

于 2024-03-19 03:04:13 发布

阅读量218

点赞数 1

分类专栏： python学习文章标签： python 学习开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43091806/article/details/136827139

版权

python学习专栏收录该内容

14 篇文章 0 订阅

订阅专栏

1.pd.read_csv()

这行代码使用了 Pandas 库中的 read_csv() 函数来读取名为 "tweets.csv" 的 CSV 文件，并且设置了 chunksize 参数为 10。这意味着该 CSV 文件将被分块读取，每个块的大小为 10 行数据。

在循环中，每次迭代都会从文件中读取一个块（包含10行数据），然后将这个块赋值给变量 chunk。在每次迭代中，你可以对变量 chunk 进行操作，处理该块的数据，例如进行数据分析、转换、过滤等操作。

这种分块读取的方式特别适用于处理大型数据集，因为它可以有效地节省内存，避免一次性加载整个数据集到内存中。

示例：

# Initialize an empty dictionary: counts_dict
counts_dict={}

# Iterate over the file chunk by chunk
for chunk in pd.read_csv("tweets.csv",chunksize=10):

    # Iterate over the column in DataFrame
    for entry in chunk["lang"]:
        if entry in counts_dict.keys():
            counts_dict[entry] += 1
        else:
            counts_dict[entry] = 1

# Print the populated dictionary
print(counts_dict)


#输出结果
{'en': 97, 'et': 1, 'und': 2}

数据科学学习

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python学习-遍历大量数据pd.read_csv

这种分块读取的方式特别适用于处理大型数据集，因为它可以有效地节省内存，避免一次性加载整个数据集到内存中。这意味着该 CSV 文件将被分块读取，每个块的大小为 10 行数据。在循环中，每次迭代都会从文件中读取一个块（包含10行数据），然后将这个块赋值给变量。函数来读取名为 "tweets.csv" 的 CSV 文件，并且设置了。进行操作，处理该块的数据，例如进行数据分析、转换、过滤等操作。这行代码使用了 Pandas 库中的。在每次迭代中，你可以对变量。
复制链接

扫一扫

专栏目录

数据科学学习 CSDN认证博客专家 CSDN认证企业博客

码龄6年

24: 原创

142万+: 周排名

8万+: 总排名

5916: 访问

: 等级

336: 积分

63: 粉丝

91: 获赞

11: 评论

57: 收藏

私信

关注

热门文章

分类专栏

最新评论

Python学习-如何安装Python
CSDN-Ada助手: 恭喜您写下了第19篇博客！学习如何安装Python对于初学者来说是非常重要的一步，希望您的博客能够帮助更多人顺利入门编程世界。接下来，我建议您可以分享一些Python的基础语法和常用库的使用方法，这样能够更全面地帮助读者掌握Python编程的基础知识。继续加油，期待您更多精彩的博客！
python学习-crosstab（创建交叉表）
CSDN-Ada助手: 恭喜您完成了第20篇博客！学习python的过程中，掌握了crosstab（创建交叉表）这一重要知识点，内容丰富且实用。希望您能继续保持创作的热情，不断分享给大家更多有价值的内容。下一步建议可以探索一些实际案例，结合crosstab的应用场景，让读者更直观地理解其作用和用法。期待您的下一篇作品！
Python学习-lambda
CSDN-Ada助手: 恭喜用户写了第9篇博客！学习lambda表达式确实是Python中一个重要的知识点，希望您能继续保持写作的热情和动力。下一步可以考虑深入探讨Python中的装饰器或者生成器等高级特性，相信您会有更多有趣的发现和收获。期待您的下一篇作品！祝您写作愉快！
python学习-处理error
CSDN-Ada助手: 恭喜你成功撰写了第10篇博客！处理error是一个非常重要的主题，你的文章内容相信对很多读者都会有所帮助。接下来，我建议你可以尝试扩展一下主题，比如深入探讨一些常见的error类型及其解决方法，或者分享一些实际应用中遇到的error案例和解决经验。希望你能继续保持创作的热情，为大家带来更多有价值的内容！
狄克斯特拉算法
CSDN-Ada助手: 恭喜您写了第7篇博客！标题“狄克斯特拉算法”让我感到很兴奋，这是一个非常有意义的主题。您的文章内容清晰易懂，对算法原理进行了深入的探讨，让读者受益匪浅。希望您能继续保持创作的热情和努力，不断提升自己的写作水平。下一步建议可以考虑结合实际案例或应用场景，让读者更加深入地理解狄克斯特拉算法的实际应用价值。期待您更多精彩的创作！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。