aa
关于提示A value is trying to be set on a copy of a slice from a DataFrame
由于pandas不建议对df的子集进行操作,要么一步到位,要么另复制一个。
sub_df=df['ymd'].str.startwith('2020-01')
df[sub_df]['col3']=df['c1']-df['c2']
改为:
df.loc[sub_df:'col3']=df['c1']-df['c2']
或者:
df_new=df[sub_df].copy()
新列
df = df.assign(c3=df.c1.map(lambda x: x.split('/')[0]))
类型转换
data = data.assign(c1 = np.round(data.c1.str.replace('元/平','').astype(np.float).map(lambda x:x/100),2))
字符串处理
(df.c1.str.split('/').map(len)!=5).sum()
缺失值处理
查看空行
df[df.c1.isnull()]
df.dropna(inplace=True, how='all')
排序
df.sort_values(by='c1',inplace=True)
重复行
df.drop_duplicates(subset=['c1','c2'],inpace=True)
其它方法
df.c1.unique()
df.c1.max()
df.c1.min()
map/apply/applymap区别
map是Series的函数,针对其中的元素
df['c1']=df['c1'].map(lambda x: '%.2f'%x)
apply用于DataFrame的行或列
df['c1']=df[['d1','d2']].apply(lambda x: x.sum(), axis=1)
d1 | d2 | c1 |
---|---|---|
3 | 2 | 5 |
applymap用于DataFrame的所有元素
def addA(x):
return "Add" + str(x )
df.applymap(addA)
d1 | d2 | c1 |
---|---|---|
Add3 | Add2 | Add5 |