1. pycharm print時顯示全部數據
#显示所有列
pd.set_option('display.max_columns', None)
#显示所有行
pd.set_option('display.max_rows', None)
#设置value的显示长度为100,默认为50
pd.set_option('max_colwidth',100)
2. 獲取列名 df2.columns
[column for column in df]
list(df.columns.values)
list(df)
list(df.columns)
3. 功能
df2.index:(Index,length) index
df2.columns:(Index,length) 獲取欄位名稱 fields
df2.axes: index & fields
df2.T: 轉置
df2.info() : 打印數組信息
df2.head(i):打印前i行數據
df2.tail(i): 打印后i行數據
df2.describe():数据值列的汇总统计
4. 获取特定列及最大最小值
data = df.loc[df['favorite_color']=='blue','grade']
min = data.min()
max = data.max()
grouped = df.groupby('favorite_color')['grade']
max = grouped.max()
min = grouped.min()
5. 获取空值所在行
df = df[df[['col1', 'col2']].isnull().values==True]
6. 统计空值数量
count = df.isna().sum()
7. 执行效率
a. df.columns.tolist(usecols = ['c1','c2',...] , dtype = {'c1':str,'c2':int,...})
b. df.select_dtypes(include = ['float64','int64'])
c. df['maximum'] = df[['c1','c2']].max(axis =1)
8. 判断是否为空
a. df.empty ,这是 DataFrame 内置的属性,比较耗时
b. len(df)==0 通过Python内置len方法判断 DataFrame 的行数,速度比较快
c. len(df.index)==0 判断 DataFrame 的行索引的值数量,纳秒级别