pandas
一、pandas 和pyspark的datafram区别
pandas 是df[[‘colname’]]或者df[‘colname’]
pyspark 只能是df[‘colname’]
二、求两列的最大值作为新的一列
df[“C”] = df[[“A”, “B”]].max(axis=1)
三、nan相关
计算每列nan null 数量:df.isna().sum()
None 替换:df.replace([None],0)
Nan填充:df.fillna(0)
...
原创
2020-06-30 14:35:12 ·
71 阅读 ·
0 评论