我有一个包含大量数据(约 250,000 行)的 csv 文件,我需要删除重复的条目。每行中只有某些元素我想测试重复项,但其他数据需要显示在最终结果中。需要对日期、纬度和经度列进行重复测试。例如,如果我从这个数据开始:
Date Time Mag Lat Lon Depth Event
01/01/2008 01:38:25 1.04 35.5152 -120.8587 4.15 71091831
01/01/2008 01:44:27 0.84 38.8215 -122.8132 2.55 51193664
01/01/2008 01:46:59 0.48 38.8298 -122.811 2.44 51193666
01/01/2008 01:44:29 0.86 38.8215 -122.8132 2.76 51276634
01/01/2008 02:02:32 0.32 38.8193 -122.7968 5.86 51193667
它将删除第四行,因为它与第二行具有相同的日期、纬度和经度,因此输出将是:
Date Time Mag Lat Lon Depth Event
01/01/2008 01:38:25 1.04 35.5152 -120.8587 4.15 71091831
01/01/2008 01:44:27 0.84 38.8215 -122.8132 2.55 51193664
01/01/2008 01:46:59 0.48 38.8298 -122.811 2.44 51193666
01/01/2008 02:02:32 0.32 38.8193 -122.7968 5.86 51193667
解决方法