设置控制台展示格式
- pd.get_option(key)
- pd.set_option(key, value)
- pandas.reset_option(key)
可以修改的参数有:
- ‘display.max_rows’:控制可以显示的最大行数。超出的话,中间有的行会被省略。
- ‘display.max_columns’:控制可以显示的最大列数。
- ‘display.max_colwidth’:控制每个点能显示的最大字符数。
- ‘display.precision’:控制浮点类型显示的小数位数,不影响实际精度。
- ‘display.colheader_justify’:控制DataFrame的列名对齐位置,靠左或者靠右。
其他可参考 官网描述
举例
>>> pd.get_option('display.max_colwidth')
50
>>> s = '1'*60
>>> pd.Series(data=[s],index=['1'])
1 1111111111111111111111111111111111111111111111...
dtype: object
>>> pd.set_option('display.max_colwidth', 61)
>>> pd.Series(data=[s],index=['1'])
1 111111111111111111111111111111111111111111111111111111111111
dtype: object
查看整体信息
DataFrame.info(verbose=True, memory_usage=True, null_counts=True)
- verbose:是否显示所有列的信息,如果为否,则会省略一部分;
- memory_usage:True or False,默认为True,是否查看DataFrame的内存使用情况;
- null_counts:True or False,默认为True,是否统计NaN值的个数。
DataFrame.ndim:查看维数,Series是1,DataFrame是2
DataFrame.shape:(行数,列数)
DataFrame.size:元素个数
Series/DataFrame.head(n=5):看头几行
Series/DataFrame.tail(n=5):看尾端几行
Series/DataFrame.memory_usage(index=True, deep=False)
单位都是字节。参数说明:
- index:是否显示索引占用的内存,毫无疑问索引也占用内存;
- deep:是否显示object类型的列消耗的系统资源,由于pandas中object元素只是一个引用,我估计这个deep是指显示真实的内存占用。如果这个为False,其实看的是索引占的大小。
DataFrame.describe( include= [np.number]):快速查看每一列的统计信息,排除所有NaN
- include:'all’或者[np.number 或 np.object]。numberic只对元素属性为数值的列做数值统计,object只对元素属性为object的列做类字符串统计。
>>> df = pd.DataFrame( [[1,'a'],[2,'b'],[1,'b']], columns = ['numeric','object'])
>>> df
numeric object
0 1 a
1 2 b
2 1 b
>>> df.describe() # 默认只统计数值列
numeric
count 3.0000000000
mean 1.3333333333
std 0.5773502692
min 1.0000000000
25% 1.0000000000
50% 1.0000000000
75% 1.5000000000
max 2.0000000000
>>> df.describe(include=[np.object]) # 只统计字符串列了
object
count 3
unique 2
top b
freq 2
>>> df['numeric2'] = df['numeric']*2
>>> df
numeric object numeric2
0 1 a 2
1 2 b 4
2 1 b 2
>>> pd.set_option('display.max_rows',20)
>>> df.describe(include='all') # all 的话就是混合统计了
numeric object numeric2
count 3.0000000000 3 3.0000000000
unique NaN 2 NaN
top NaN b NaN
freq NaN 2 NaN
mean 1.3333333333 NaN 2.6666666667
std 0.5773502692 NaN 1.1547005384
min 1.0000000000 NaN 2.0000000000
25% 1.0000000000 NaN 2.0000000000
50% 1.0000000000 NaN 2.0000000000
75% 1.5000000000 NaN 3.0000000000
max 2.0000000000 NaN 4.0000000000