1.去掉重复行
使用pandas自带的drop_duplicates方法:
norepeat_df = df.drop_duplicates(subset=['A_ID', 'B_ID'], keep='first')
#去掉A_ID和B_ID列中重复的行,并保留重复出现的行中第一次出现的行
补充:
当keep=False时,就是去掉所有的重复行
当keep=‘first’时,就是保留第一次出现的重复行
当keep='last’时就是保留最后一次出现的重复行。
(注意,这里的参数是字符串,要加引号!!!)
2.去掉NaN行
使用pandas自带的dropna()方法:
#删除表中某行全部为NaN的行
nonan_df = df.dropna(axis=0, how='all')
#删除表中某行含有任何NaN的行
nonan_df = df.dropna(axis=0, how='any')
补充:
删除行的参数axis = 0
删除列的参数axis = 1