python 对比文件内容差异_使用Python来比较文件夹并提取差异部分

在客户那边建库,需要把几百个G几十万个文件导入到Oracle里,好不容易导完了才发现中间缺了好几大块数据,约有四分之一吧,郁闷得很。

数据是客户从第三方买的,据客户分析是拷贝过来的时候有部分数据漏掉了,但漏掉的数据又没有什么规律,加之文件夹的嵌套层数很多,查找起来很困难。

客户又从第三方那边拷了一份全的数据,现在对这个问题有两种处理方案,一种是全部重新导一遍,大约得花一周多的时间;另一种方案是把两个数据的差异找出来,把差异的部分追加进去就行了。

项目的时间比较紧张了,只能选第二种方案,可如何把差异的数据找出来呢,试了几个文件夹比较的工具,处理几百兆的数据都吃力,更不必说这么大量的数据和文件了。

后来想了想,觉得Python解决这个问题比较方便,就研究了一下Python里的文件和目录操作,很快就完成了下面的一个脚本,可以很好地解决这个问题。

下面的脚本可以在Python24里很好地运行,在其他版本里没有测试,但用的都是基本功能,应该没有什么问题。

代码里的PathA是全的数据的文件夹,PathB是不全的数据的文件夹,PathC是个新的空目录,脚本执行完后就把PathA中有且pathB中没有的文件和目录都写到PathC里了,还可以保持原来的目录结构,速度和正确性都很令人满意。

因为是急用的代码,所以写得不很简洁,也不是很规范,在此留志,一方面供自己以后参考,另一方面也提供给需要使用Python进行文件和目录操作的兄弟们共同参考。

代码如下:

# coding: GB2312

#系统模块

import sys

import os

import shutil

#用于文件查找的模块

from os.path import walk, join, normpath

#这个是完整的文件夹

PathA = "F:\\FullData\\"

#这个是缺文件的文件夹

PathB = "F:\\IncomplData\\"

#这个是目标文件夹

PathC = "F:\\DiffData\\"

#============================================================

#这个函数是用来递归处理PathA,对PathA里的每个文件和文件夹在PathB中找是否有对应的文件或文件夹

#若找不到,则在PathC中创建目录并拷贝文件

#拷贝文件时使用了shutil模块的copy2函数,以保留文件原来的创建时间和最后更新时间

def visit(arg, dirname, names):

#把目录打印出来,以监视进度

print dirname

#得到路径名后,把前面的主路径名去掉

dir=dirname.replace(PathA,"")

dirnameB = os.path.join(PathB,dir)

dirnameC = os.path.join(PathC,dir)

if os.path.isdir(dirnameB):

#若PathB里存在对应的文件夹,再逐个文件判断是否存在

for file in names:

if os.path.isfile(os.path.join(dirname,file)) and not os.path.isfile(os.path.join(dirnameB,file)):

if not os.path.isdir(dirnameC):

os.system("mkdir %s"%(dirnameC))

shutil.copy2(os.path.join(dirname,file), os.path.join(dirnameC,file))

elif os.path.isdir(os.path.join(dirname,file)) and not os.path.isdir(os.path.join(dirnameB,file)):

if not os.path.isdir(os.path.join(dirnameC,file)):

os.system("mkdir %s"%(os.path.join(dirnameC,file)))

else:

#若pathB里不存在对应的文件夹,则在pathC里创建对应的文件夹并拷贝文件

if not os.path.isdir(dirnameC):

os.system("mkdir %s"%(dirnameC))

for file in names:

shutil.copy2(os.path.join(dirname,file), os.path.join(dirnameC,file))

#============================================================

if __name__=="__main__":

#这一行代码调用前面的visit函数,进行文件查找并递归处理

walk(PathA, visit, 0)

最后附完整源代码以供下载:http://imlele.net/MyFiles/2008/01/CompPath.rar

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值