train[col].nunique() 统计(该列有多少个不相同的数据)相加
train[col].isnull().sum() 处理缺失值 将列中为空的个数统计出来
train[col].value_counts(normalize=False, sort=True, ascending=False, bins=None, dropna=True)
可以对Series里面的每个值进行计数并且排序。
(normalize: 如果为True,则返回的对象将包含唯一值的相对频率。
sort: 按值排序 ascending: 按升序排序 dropna: 不包括NaN的数量)
train.sort_values(by=(['列名']),ascending=False) 按照次列 降序排列
train.drop('xxx',axis=1) 删除列 pd.drop(['xxx','yyy'],axis=0) 删除多行
train.concat(objs, axis=0, ignore_index=False)
objs 需要连接的对象
axis = 0, 表示在水平方向(row)进行连接 axis = 1, 表示在垂直方向(column)进行连接
ignore_index 忽略需要连接的frame本身的index。当原本的index没有特别意义的时候可以使用
data.fillna(-1) # 填充缺失值为-1
numpy(ndarray 随机数组 常用操作 线性方程组和矩阵运算):https://blog.csdn.net/csj941227/article/details/75209328
pandas 增加一行:
a=np.random.rand(6,4)
a[0][1]='NaN'
b=pd.DataFrame(a,columns=['A1','A2','A3','A4'])
b.loc[6]=[1,2,3,4]
b.loc[7]=[2,3,3,5]
pandas 增加一列:
b['A5']=[7,6,5,4,3,2,1,0]
# b.insert(0,'A5',[7,6,5,4,3,2,1,0])
print(b)