项目中有个需求,就是对比多个玩家客户端上报的log内容,找到第一次出现不同的行数,并返回出现不同的玩家信息,代码使用python实现的。很久之前就已经实现了,就是先用filecmp模块的cmp函数逐个对比两个文件,如果出现不同了再逐行对比找到不同的一行。但最近重新看了代码,发现还有更好的办法,就是逐行对比,找到不同的一行或者比完为止。但是具体采用哪种方法呢,这让我有点疑惑,因为一般来说有库函数都会用库函数吧,默认是库函数的效率会高点。所以,我去找了cmp函数的源码,源码如下:
_cache = {}
BUFSIZE=8*1024
def cmp(f1, f2, shallow=1):
"""Compare two files.
Arguments:
f1 -- First file name
f2 -- Second file name
shallow -- Just check stat signature (do not read the files).
defaults to 1.
Return value:
True if the files are the same, False otherwise.
This function uses a cache for past comparisons and the results,
with a cache invalidation mechanism relying on stale signatures.
"""
s1 = _sig(os.stat(f1))
s2 = _sig(os.stat(f2))
if s1[0] != stat