pandas查看数据信息

最新推荐文章于 2024-09-15 22:31:42 发布

追光的蜗牛丿

最新推荐文章于 2024-09-15 22:31:42 发布

阅读量376

点赞数 3

文章标签： pandas python 大数据

本文链接：https://blog.csdn.net/2401_85384231/article/details/140636376

版权

从csv或excel等格式文件中读取了数据到pandas的DataFrame中，但是却不知道读取的数据是怎样的，想知道读取的数据是什么形式、包含哪些信息、有哪些数据类型，怎么办？使用df.head()方法。

df.head(n=5)

该方法用于获取DataFrame的前n行数据，n默认为5，当自己指定的n超过DataFrame数组行数时，会返回所有的行，通过该方法，我们可以获取数据的结构概览。

又有时，使用df.sort_index()等方法对DataFrame的行进行了排序，但又不知道排序后的DataFrame是否正确或是否是自己所需要的怎么办？又不想使用df.head()方法；有些时候向DataFrame的尾部添加了一些行，但不知道是否成功，又怎么办？在这两种情况下，df.tail()方法可以解决问题。

df.tail(n=5)

该方法会返回DataFrame数组的后n行，默认n为5，其它使用方面的细节则与df.head()方法一致

给定一个DataFrame数组，现在想知道数组中数据的分布信息和统计信息，如均值、方差、中位数、最小值、最大值等，均值可以使用df.mean()方法获取、方差可以单独使用df.std()方法获取、中位数可以单独使用df.quantile()方法获取、最小值可以使用df.min()方法获取、最大值可以使用df.max()方法获取。而df.describe()方法则可以同时获取上述信息，该方法用于方便的获取DataFrame的统计描述信息。

df.describe(percentiles=None, include=None, exclude=None)

在该方法的参数中，percentiles用于指定要求哪些层次的中位数，如果没有指定，则默认[.25, .5, .75]；include参数表示返回结果中包含的数据类型白名单，可选的值为：'all'、类似于dtypes的列表或者'None'，默认为None，其中'all'表示返回所有列的统计信息，当指定的是一个列表时，将结果限制为所提供的数据类型，例如要将结果限制为数字类型，则在列表中包含 numpy.number，要将结果限制为对象列，则指定为 numpy.object 数据类型，如果指定为'None'，则表示只返回数字类型的列的统计描述信息；exclude参数则与include相反，表示哪些类型的列不返回其统计信息，取值可以为一个列表或者'None'，列表与上述类似，如果是'None'，则表示不作限制。