写在前面
本文源自工作中的需要:后台服务器采用主从设计(一共有俩系统来做负载均衡),在数据复制的过程中由于网络传输等因素,会出现两系统数据不一致的情况,我需要找到并修复它(本文只涉及如何“找到”)。
其实工作中经常会碰上这样的小问题,我们可以用Java去读文件,存进set,然后比较……
但是用Python和Pandas这个库,我们可以仅用10行以内的代码做到,简单且方便。
工具
Python 3.6 & Pandas
正文
先抽取出要比较的数据,出于数据保护,在此我不使用真实数据,而是自己伪造一些数据。
这是我的文件结构,files里面放的是准备使用的数据:
w71.txt:
w72.txt:
很明显能看出,在复制的过程中,w71系统上的Number为5的数据没有被复制到w72上&#