修正:这里对”机械编号“、”提交人“、”出文编号(行政)“三列进行筛查去重,删除这三列每行都重复的行
df = datanew.drop_duplicates(subset=['机械编号','提交人','出文编号(行政)'], keep='first', inplace=False)#多虑三个条件,删除这三个条件的重复项
其中参数解释如下:
drop_duplicates函数用于删除Series、DataFrame中重复记录,并返回删除重复后的结果
subset:用于识别重复的列标签或列标签序列,默认所有列标签
keep=‘frist’:除了第一次出现外,其余相同的被标记为重复
keep='last':除了最后一次出现外,其余相同的被标记为重复
keep=False:所有相同的都被标记为重复
inplace=True, 表示直接在原来的df做处理, 否则是返回一个copy