使用pandas I/O工具
实验要求:
1.使用pandas的read_csv函数来建立流数据
2.对数据分块
实验内容:
1.使用read_csv函数来读取数据
2.使用.iloc函数来数据切割
源代码:
import pandas as pd
CHUNK_SIZE = 1000 #组块大小
with open(local_path+’\’+source, ‘rt’) as R: #R为一个对象,对象中有文件路径和读写方法
iterator = pd.read_csv(R,chunksize=CHUNK_SIZE)
for n, data_chunk in enumerate(iterator): #n和data_chunk两个变量,一个存行号,一个存后面的整个字符串
print (‘Size of uploaded chunk: %i instances, %i features’ %(data_chunk.shape)) #shape用来告诉是几维数组以及元素的构成
#DATA PROCESSING placeholder
#MACHINE LEARNING placeholder
pass
print (‘Sample values: \n%s’ %str(data_chunk.iloc[0])) #iloc函数是对DataFrame类型的数据通过行号提取整行数据。
实验总结:迭代器类似于for循环,能够自动实现更新迭代。将数据分块进行计算可以节约计算成本,是大数据分析的基础。