pandas与excel联动-pandas基础5-展示控制

最新推荐文章于 2022-01-27 18:06:37 发布

陆沙

最新推荐文章于 2022-01-27 18:06:37 发布

阅读量181

点赞数

分类专栏： pandas 文章标签： python 大数据

本文链接：https://blog.csdn.net/pxy7896/article/details/107004301

版权

pandas 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

展示控制

设置控制台展示格式
查看整体信息

设置控制台展示格式

pd.get_option(key)
pd.set_option(key, value)
pandas.reset_option(key)

可以修改的参数有：

‘display.max_rows’：控制可以显示的最大行数。超出的话，中间有的行会被省略。
‘display.max_columns’：控制可以显示的最大列数。
‘display.max_colwidth’：控制每个点能显示的最大字符数。
‘display.precision’：控制浮点类型显示的小数位数，不影响实际精度。
‘display.colheader_justify’：控制DataFrame的列名对齐位置，靠左或者靠右。

其他可参考官网描述

举例

>>> pd.get_option('display.max_colwidth')
50
>>> s = '1'*60
>>> pd.Series(data=[s],index=['1'])
1    1111111111111111111111111111111111111111111111...
dtype: object
>>> pd.set_option('display.max_colwidth', 61)
>>> pd.Series(data=[s],index=['1'])
1    111111111111111111111111111111111111111111111111111111111111
dtype: object

查看整体信息

DataFrame.info(verbose=True, memory_usage=True, null_counts=True)

verbose：是否显示所有列的信息，如果为否，则会省略一部分；
memory_usage：True or False，默认为True，是否查看DataFrame的内存使用情况；
null_counts：True or False，默认为True，是否统计NaN值的个数。

DataFrame.ndim：查看维数，Series是1，DataFrame是2

DataFrame.shape：（行数，列数）

DataFrame.size：元素个数

Series/DataFrame.head(n=5)：看头几行

Series/DataFrame.tail(n=5)：看尾端几行

Series/DataFrame.memory_usage(index=True, deep=False)
单位都是字节。参数说明：

index：是否显示索引占用的内存，毫无疑问索引也占用内存；
deep：是否显示object类型的列消耗的系统资源，由于pandas中object元素只是一个引用，我估计这个deep是指显示真实的内存占用。如果这个为False，其实看的是索引占的大小。

DataFrame.describe( include= [np.number])：快速查看每一列的统计信息，排除所有NaN

include：'all’或者[np.number 或 np.object]。numberic只对元素属性为数值的列做数值统计，object只对元素属性为object的列做类字符串统计。

>>> df = pd.DataFrame( [[1,'a'],[2,'b'],[1,'b']], columns = ['numeric','object'])
>>> df
   numeric object
0        1      a
1        2      b
2        1      b
>>> df.describe() # 默认只统计数值列
            numeric
count  3.0000000000
mean   1.3333333333
std    0.5773502692
min    1.0000000000
25%    1.0000000000
50%    1.0000000000
75%    1.5000000000
max    2.0000000000
>>> df.describe(include=[np.object]) # 只统计字符串列了
       object
count       3
unique      2
top         b
freq        2
>>> df['numeric2'] = df['numeric']*2
>>> df
   numeric object  numeric2
0        1      a         2
1        2      b         4
2        1      b         2
>>> pd.set_option('display.max_rows',20)
>>> df.describe(include='all') # all 的话就是混合统计了
             numeric object      numeric2
count   3.0000000000      3  3.0000000000
unique           NaN      2           NaN
top              NaN      b           NaN
freq             NaN      2           NaN
mean    1.3333333333    NaN  2.6666666667
std     0.5773502692    NaN  1.1547005384
min     1.0000000000    NaN  2.0000000000
25%     1.0000000000    NaN  2.0000000000
50%     1.0000000000    NaN  2.0000000000
75%     1.5000000000    NaN  3.0000000000
max     2.0000000000    NaN  4.0000000000