具体可参考pandas官方文档
1.使用pandas库载入表格数据
首先数据路径存在两种情况,一种是相对路径(ps:就是相对当前代码文件的路径位置);一种是绝对路径(ps:即在整个盘下的位置,绝对路径可以通过os.getcwd()方法来获取)
路径中使用单/或者双\
相对路径
绝对路径
C:/Users/Administrator/Documents/kaggle_data/test.csv
而pandas读取文本的方法有两种:pd.read_cv(),pd.read_table()
两者存在的区别就是前者一次是读取文本中的每一个数据,其中读取数据的依据是分隔符,默认逗号,而后者读取的是表格中的每一行数据,即“\t”
如果要使得两者输出相同的形式,就将两者的分割符都设置成逗号,或者都换成换行符号
import os
path = os.getcwd()
file_test = pd.read_csv('C:/Users/Administrator/Documents/kaggle_data/test.csv')#,sep='\t')#,index_col=['Name'])
file_test1 = pd.read_table('../Documents/kaggle_data/test.csv')#,sep=',')
print(path)
print(file_test)
print(file_test1)
#gender_submission
#file_test.head(3)
file_test1.head(3)
tsv文件指的是以“\t”进行分隔数据,而csv’文件则是逗号分隔数据,前者的加载可以使用pd.read_csv()方法
TSV文件与CSV文件的不同
2.逐块读取数据
chunker = pd.read_csv(".\\kaggle_data\\train.csv",chunksize=100)
for piece in chunker:
print(type(piece))
print(piece)
这里的chunker指的是步长,其中piece的数据类型为DataFrame,而逐块读取就是将数据进行划分,每次处理chunker大小的数据量,可以防止内存太小,没办法完全将整个文本中的存储下去