pandas查看数据信息

从csv或excel等格式文件中读取了数据到pandas的DataFrame中,但是却不知道读取的数据是怎样的,想知道读取的数据是什么形式、包含哪些信息、有哪些数据类型,怎么办?使用df.head()方法。

df.head(n=5)

该方法用于获取DataFrame的前n行数据,n默认为5,当自己指定的n超过DataFrame数组行数时,会返回所有的行,通过该方法,我们可以获取数据的结构概览。


又有时,使用df.sort_index()等方法对DataFrame的行进行了排序,但又不知道排序后的DataFrame是否正确或是否是自己所需要的怎么办?又不想使用df.head()方法;有些时候向DataFrame的尾部添加了一些行,但不知道是否成功,又怎么办?在这两种情况下,df.tail()方法可以解决问题。

df.tail(n=5)

该方法会返回DataFrame数组的后n行,默认n为5,其它使用方面的细节则与df.head()方法一致


给定一个DataFrame数组,现在想知道数组中数据的分布信息和统计信息,如均值、方差、中位数、最小值、最大值等,均值可以使用df.mean()方法获取、方差可以单独使用df.std()方法获取、中位数可以单独使用df.quantile()方法获取、最小值可以使用df.min()方法获取、最大值可以使用df.max()方法获取。而df.describe()方法则可以同时获取上述信息,该方法用于方便的获取DataFrame的统计描述信息。

df.describe(percentiles=Noneinclude=Noneexclude=None)

在该方法的参数中,percentiles用于指定要求哪些层次的中位数,如果没有指定,则默认[.25, .5, .75];include参数表示返回结果中包含的数据类型白名单 ,可选的值为:'all'、类似于dtypes的列表或者'None',默认为None,其中'all'表示返回所有列的统计信息,当指定的是一个列表时,将结果限制为所提供的数据类型,例如要将结果限制为数字类型,则在列表中包含 numpy.number,要将结果限制为对象列,则指定为 numpy.object 数据类型,如果指定为'None',则表示只返回数字类型的列的统计描述信息;exclude参数则与include相反,表示哪些类型的列不返回其统计信息,取值可以为一个列表或者'None',列表与上述类似,如果是'None',则表示不作限制。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值