Pandas大数据文件快速查看

这次接到的工作是对从IEA官网中下载的全球新能源汽车的产量,时间限度是从2011年到2023年,地区包含了世界各地的新能源汽车销售量,出口量,金融股票等类别的数据,看着这个时间尺度和类别繁多,一股之前大数据比赛打开一个数据转了两天导致破防的心理阴影。因此对于那些特别大的文件,在导入到Python中的时候,为了能够更快的了解到这一大坨数据的主要属性,我会编写这样的代码(虽然这次工作的文件并不大,但是依旧诱发了我的心理阴影)

import pandas as pd
df=pd.read_csv("./IEA Global EV Data 2024.csv",nrows=5)
df

在读取的文件时,可以设定nrows属性,这样可以限制读入的数量,从而快速地查看大型文件的主要属性和架构,一般只需要几秒钟到十几分钟,这个主要看限制读入的行数,以及硬件的性能了。而不是和笔者一样,等电脑读取完数据后直接交卷了。

当然,在读入一个文件后,如果你想只读取这个文件的前几行,可以使用这个方法

#df是已经读取到Python中的数据,现在的类型是DataFrame
df.head()

这个方法默认会展示数据的前五行,当然,可以在括号中,写入整数,这样返回对应数量的数据,如果数据有属性名称行,这个也是算一行的,比如你要返回10行,就会返回属性名称行和9行数据。

有人会问:老笔灯,直接把数据全部导入到里面看不是也可以吗?为什么这么麻烦,我只能说,算了,我也不知道说什么,当数据到达一定长度的额时候,Pandas展示的DataFrame的中间会变成......,这样并不方便查看架构,当然,如果,我是说如果,要是害怕只展露一部分数据会错过什么重要数据,你也可以使用这段代码:

pd.set_option('display.max_rows', None)

这个代码会取消省略号限制,展示所有的数据,但是要做好心理准备,如果全部打印出来,排版会很难看,并不利于查看查看是否有遗漏的信息。

好啦,这就是这次笔者在接这个项目是突然回想起自己参赛的经历,特地写出来,分享给各位,让后来者少走一些弯路,不要像笔者一样刚开始就结束了🐕,如有错误或更好的方法,可以在评论区指出,谢谢各位。

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值