python大规模机器学习day2-使用pandas I/O工具

最新推荐文章于 2022-05-17 15:22:05 发布

海绵波波107

最新推荐文章于 2022-05-17 15:22:05 发布

阅读量140

点赞数

分类专栏： python机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43920838/article/details/107284131

版权

python机器学习专栏收录该内容

13 篇文章 1 订阅

订阅专栏

使用pandas I/O工具

实验要求：
1.使用pandas的read_csv函数来建立流数据
2.对数据分块
实验内容：
1.使用read_csv函数来读取数据
2.使用.iloc函数来数据切割
源代码：
import pandas as pd
CHUNK_SIZE = 1000 #组块大小
with open(local_path+’\’+source, ‘rt’) as R: #R为一个对象，对象中有文件路径和读写方法
iterator = pd.read_csv(R,chunksize=CHUNK_SIZE)
for n, data_chunk in enumerate(iterator): #n和data_chunk两个变量，一个存行号，一个存后面的整个字符串
print (‘Size of uploaded chunk: %i instances, %i features’ %(data_chunk.shape)) #shape用来告诉是几维数组以及元素的构成
#DATA PROCESSING placeholder
#MACHINE LEARNING placeholder
pass
print (‘Sample values: \n%s’ %str(data_chunk.iloc[0])) #iloc函数是对DataFrame类型的数据通过行号提取整行数据。

实验总结：迭代器类似于for循环，能够自动实现更新迭代。将数据分块进行计算可以节约计算成本，是大数据分析的基础。

海绵波波107

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
python大规模机器学习day2-使用pandas I/O工具

使用pandas I/O工具实验要求：1.使用pandas的read_csv函数来建立流数据2.对数据分块实验内容：1.使用read_csv函数来读取数据2.使用.iloc函数来数据切割源代码：import pandas as pdCHUNK_SIZE = 1000 #组块大小with open(local_path+’\’+source, ‘rt’) as R: #R为一个对象，对象中有文件路径和读写方法iterator = pd.read_csv(R,chunks
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

海绵波波107 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。