python大规模机器学习day2-使用pandas I/O工具

使用pandas I/O工具

实验要求:
1.使用pandas的read_csv函数来建立流数据
2.对数据分块
实验内容:
1.使用read_csv函数来读取数据
2.使用.iloc函数来数据切割
源代码:
import pandas as pd
CHUNK_SIZE = 1000 #组块大小
with open(local_path+’\’+source, ‘rt’) as R: #R为一个对象,对象中有文件路径和读写方法
iterator = pd.read_csv(R,chunksize=CHUNK_SIZE)
for n, data_chunk in enumerate(iterator): #n和data_chunk两个变量,一个存行号,一个存后面的整个字符串
print (‘Size of uploaded chunk: %i instances, %i features’ %(data_chunk.shape)) #shape用来告诉是几维数组以及元素的构成
#DATA PROCESSING placeholder
#MACHINE LEARNING placeholder
pass
print (‘Sample values: \n%s’ %str(data_chunk.iloc[0])) #iloc函数是对DataFrame类型的数据通过行号提取整行数据。

实验总结:迭代器类似于for循环,能够自动实现更新迭代。将数据分块进行计算可以节约计算成本,是大数据分析的基础。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

海绵波波107

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值