python 数据逐个验证_Python 数据分析之逐块读取文本的实现

最新推荐文章于 2024-03-12 22:15:45 发布

weixin_39715187

最新推荐文章于 2024-03-12 22:15:45 发布

阅读量233

点赞数

文章标签： python 数据逐个验证

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39715187/article/details/111440425

版权

背景

《利用Python进行数据分析》，第 6 章的数据加载操作 read_xxx，有 chunksize 参数可以进行逐块加载。

经测试，它的本质就是将文本分成若干块，每次处理 chunksize 行的数据，最终返回一个TextParser 对象，对该对象进行迭代遍历，可以完成逐块统计的合并处理。

示例代码

文中的示例代码分析如下：

from pandas import DataFrame,Series

import pandas as pd

path='D:/AStudy2018/pydata-book-2nd-edition/examples/ex6.csv'

# chunksize return TextParser

chunker=pd.read_csv(path,chunksize=1000)

# an array of Series

tot=Series([])

chunkercount=0

for piece in chunker:

print '------------piece[key] value_counts start-----------'

#piece is a DataFrame,lenth is chunksize=1000,and piece[key] is a Series ,key is int ,value is the key column

print piece['key'].value_counts()

print '------------piece[key] value_counts end-------------'

#piece[key] value_counts is a Series ,key is the key column, and value is the key count

tot=tot.add(piece['key'].value_counts(),fill_value=0)

chunkercount+=1

#last order the series

tot=tot.order(ascending=False)

print chunkercount

print '--------------'

流程分析

首先，例子数据 ex6.csv 文件总共有 10000 行数据，使用 chunksize=1000 后，read_csv操作返回一个 TextParser 对象，该对象总共有10个元素，遍历过程中打印 chunkercount验证得到。

其次，每个 piece 对象是一个 DataFrame 对象，piece['key'] 得到的是一个 Series 对象，默认是数值索引，值为 csv 文件中的 key 列的值，即各个字符串。

将每个 Series 的 value_counts 作为一个Series，与上一次统计的 tot 结果进行 add 操作，最终得到所有块数据中各个 key 的累加值。

最后，对 tot 进行 order 排序，按降序得到各个 key 的值在 csv 文件中出现的总次数。

这里很巧妙了使用 Series 对象的 add 操作，对两个 Series 执行 add 操作，即合并相同key：key相同的记录的值累加，key不存在的记录设置填充值为0。

输出结果为：

到此这篇关于Python 数据分析之逐块读取文本的实现的文章就介绍到这了,更多相关Python 逐块读取文本内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

weixin_39715187

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 数据逐个验证_Python 数据分析之逐块读取文本的实现

背景《利用Python进行数据分析》，第 6 章的数据加载操作 read_xxx，有 chunksize 参数可以进行逐块加载。经测试，它的本质就是将文本分成若干块，每次处理 chunksize 行的数据，最终返回一个TextParser 对象，对该对象进行迭代遍历，可以完成逐块统计的合并处理。示例代码文中的示例代码分析如下：from pandas import DataFrame,Seriesi...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。