pandas中数据基础操作

具体可参考pandas官方文档

1.使用pandas库载入表格数据
首先数据路径存在两种情况,一种是相对路径(ps:就是相对当前代码文件的路径位置);一种是绝对路径(ps:即在整个盘下的位置,绝对路径可以通过os.getcwd()方法来获取)
路径中使用单/或者双\

相对路径
在这里插入图片描述
绝对路径

C:/Users/Administrator/Documents/kaggle_data/test.csv

而pandas读取文本的方法有两种:pd.read_cv(),pd.read_table()
两者存在的区别就是前者一次是读取文本中的每一个数据,其中读取数据的依据是分隔符,默认逗号,而后者读取的是表格中的每一行数据,即“\t”

参考 Pandas读取文件(read_csv与read_table 的区别)

如果要使得两者输出相同的形式,就将两者的分割符都设置成逗号,或者都换成换行符号

import os
path =  os.getcwd()
file_test = pd.read_csv('C:/Users/Administrator/Documents/kaggle_data/test.csv')#,sep='\t')#,index_col=['Name'])
file_test1 = pd.read_table('../Documents/kaggle_data/test.csv')#,sep=',')
print(path)
print(file_test)
print(file_test1)
#gender_submission
#file_test.head(3)
file_test1.head(3)

参考
pd.read.table()读取数据文件
Pandas csv读写文件

tsv文件指的是以“\t”进行分隔数据,而csv’文件则是逗号分隔数据,前者的加载可以使用pd.read_csv()方法
TSV文件与CSV文件的不同

2.逐块读取数据

chunker = pd.read_csv(".\\kaggle_data\\train.csv",chunksize=100)
for piece in chunker:
    print(type(piece))
    print(piece)

这里的chunker指的是步长,其中piece的数据类型为DataFrame,而逐块读取就是将数据进行划分,每次处理chunker大小的数据量,可以防止内存太小,没办法完全将整个文本中的存储下去

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值