pandas中数据基础操作

最新推荐文章于 2024-04-23 22:17:34 发布

喵喵喵喵诺

最新推荐文章于 2024-04-23 22:17:34 发布

阅读量357

点赞数

分类专栏： python pandas 文章标签： python pandas

本文链接：https://blog.csdn.net/qq_42987423/article/details/120275524

版权

具体可参考pandas官方文档

1.使用pandas库载入表格数据
首先数据路径存在两种情况，一种是相对路径（ps：就是相对当前代码文件的路径位置）；一种是绝对路径（ps：即在整个盘下的位置，绝对路径可以通过os.getcwd（）方法来获取）
路径中使用单/或者双\

相对路径
在这里插入图片描述
绝对路径

C:/Users/Administrator/Documents/kaggle_data/test.csv

而pandas读取文本的方法有两种：pd.read_cv(),pd.read_table()
两者存在的区别就是前者一次是读取文本中的每一个数据，其中读取数据的依据是分隔符，默认逗号，而后者读取的是表格中的每一行数据，即“\t”

参考 Pandas读取文件（read_csv与read_table 的区别）

如果要使得两者输出相同的形式，就将两者的分割符都设置成逗号，或者都换成换行符号

import os
path =  os.getcwd()
file_test = pd.read_csv('C:/Users/Administrator/Documents/kaggle_data/test.csv')#,sep='\t')#,index_col=['Name'])
file_test1 = pd.read_table('../Documents/kaggle_data/test.csv')#,sep=',')
print(path)
print(file_test)
print(file_test1)
#gender_submission
#file_test.head(3)
file_test1.head(3)

参考
pd.read.table()读取数据文件
 Pandas csv读写文件

tsv文件指的是以“\t”进行分隔数据，而csv’文件则是逗号分隔数据，前者的加载可以使用pd.read_csv()方法
TSV文件与CSV文件的不同

2.逐块读取数据

chunker = pd.read_csv(".\\kaggle_data\\train.csv",chunksize=100)
for piece in chunker:
    print(type(piece))
    print(piece)

这里的chunker指的是步长，其中piece的数据类型为DataFrame，而逐块读取就是将数据进行划分，每次处理chunker大小的数据量，可以防止内存太小，没办法完全将整个文本中的存储下去

最低0.47元/天解锁文章

喵喵喵喵诺

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pandas中数据基础操作

具体可参考pandas官方文档1.使用pandas库载入表格数据首先数据路径存在两种情况，一种是相对路径（ps：就是相对当前代码文件的路径位置）；一种是绝对路径（ps：即在整个盘下的位置，绝对路径可以通过os.getcwd（）方法来获取）路径中使用单/或者双\相对路径绝对路径C:/Users/Administrator/Documents/kaggle_data/test.csv而pandas读取文本的方法有两种：pd.read_cv(),pd.read_table()两者存在的区别就
复制链接

扫一扫