- 读取数据
import pandas as pd pd.read_csv(" ")
-
观察数据
print(xxx.dtypes) #每列的数据类型 print(xxx.head(n)) #前n行数据 print(xxx.tail(n)) #后n行数据 print(xxx.columns) #每一列的名字 print(xxx.shape) #行列数 print(xxx.loc[0]) #索引为0的(第一个)数据 print(xxx[列1, 列2]) #输出指定列 xxx[新列名] = 变量 #将数组加入数据框 xxx.max() xxx.mean() new = xxx.sort_values("列", inplace = True, ascending = True) #按照指定列排序,生成新的数据框,升序 new.reset_index(drop = True) #排序后生成新的索引,并且删去原有索引 pd.to_datetime() #转换格式
-
缺失值
isnull = pd.isnull(dataframe[array]) #判断列中元素是否为空 dataframe[isnull] #提取na值所在的行 dataframe[isnull = False] #提取非na值 len(isnull) #缺失值数目 xxx.dropna(axis = 1, subset = (列1, 列2)) #删除带有缺失值的列,只对列1,2进行缺失值筛选操作
-
筛选以特定字符串开头/结尾的变量
colnames = xxx.columns.tolist() #将列名变为list格式 new = [] #预分配 for i in colnames if i endswith('文本') #endswith or startswith new.append(i) #将符合条件的列名存入new
-
数据透视表
xxx.pivot_table(index = '', values = '', aggfunc = np.mean) #index 按照什么分组(男女、年级等) #values 对什么进行统计(分数、年龄等等) #aggfunc 统计方式(均值、极值)
-
自定义函数
#第一种方式 def 函数名(输入变量) 。。。 。。。 return 变量或'字符串' xxx.apply(函数名) #第二种方式 f = lambda x:pow(x, 2) #lambda定义匿名函数,输入变量为x,输出x的平方
-
read_csv之后得到的是dataframe,dataframe的每一行或列是一个Series。如果想自建Series,需要
from pandas import Series xxx = Series(变量, index = )
Python---Pandas库与数据处理
最新推荐文章于 2020-07-27 14:12:40 发布