python文件扫描器_python3 编写简单的扫描相同文件工具-阿里云开发者社区

双十一 又快到了,我打算那天买过移动硬盘,因为电脑320G硬盘实在太小,再加上电脑没常整理,硬盘内的什么,图片、视频、文档、脚本等等也是特别的多。所以想先写个脚本吧重复的文件给找出来。

其实在我去年我也写过这脚本,所以我马上找到了之前的代码(https://www.oschina.net/code/snippet_2558914_54344),但感觉代码有些可以优化的地方所以今天又拿出来了。

扫描系统文件代码:

import hashlib, os,threading,time

_errList=[]#存放错误路径列表

_equalFlags={}#存放相同数据

_skipDir=["node_modules"]#跳过目录名

_skipFile=["index.js"]#跳过文件名

_dirCount=0#目录数量统计

_fileCount=0#文件数量统计

_paths=["E:\\"]#需要被扫描的路径 使用绝对路径

def filters(path,isFile,size=0):

#自定义过滤内容 比如 大小,后缀正则匹配等

pass

def getFileMd5(files):#获取Md5

srcl=open(files,'rb')

m2 = hashlib.md5()

m2.update(srcl.read())

srcl.close()

return m2.hexdigest()

def getFilesize(path):#用递归的方式遍历文件夹

global _dirCount,_fileCount

try:

if os.path.isdir(path):

filters(path,False)

_dirCount=_dirCount+1

files = os.listdir(path)

for f in files:

p=path + "/" + f

if f in _skipDir or f in _skipFile:

print("跳过:"+p)

continue

getFilesize(p)

else:

size=os.path.getsize(path)

md5=getFileMd5(path)

flag=str(md5)+"--"+str(size)#就这样当做标识吧

filters(path,True,size)

_fileCount=_fileCount+1

if not ( flag in _equalFlags.keys()):

_equalFlags[flag] = []

mtime = time.ctime(os.path.getmtime(path))

ctime = time.ctime(os.path.getctime(path))

_equalFlags[flag].append({"name":os.path.basename(path),"size":size,"path":path,"mtime":mtime,"ctime":ctime,"md5":md5})

except Exception as e:

print(e)

_errList.append(path)

counter_lock = threading.Lock()#线程锁

_isScanFinish=False#是否扫描结束

def scanPath():

global _isScanFinish,_paths

for path in _paths:

print("当前扫描目录:",path)

getFilesize(path)

_isScanFinish=True

t=threading.Thread(target = scanPath,)#创建扫描线程

print("===>扫描开始!!")

_startClock =time.time()#获取开始时间

t.start()#开始线程

while not _isScanFinish:

counter_lock.acquire()

print("已扫描目录:",_dirCount," 已扫描文件:",_fileCount," 扫描失败:",len(_errList))

counter_lock.release()

time.sleep(2)

_endClock =time.time()#获取结束时间

print("===>扫描结束!!"," 用时",str(_endClock-_startClock)+"秒")

'''

'如果你想查看结果那你可以用以下代码输出

'(也可以在此对重复文件进行处理操作)

'''

print("|文件名|完整路径|大小|创建时间|修改时间|MD5|")

print("| -------- |-------- |-------- |-------- |-------- |-------- |")

for key in _equalFlags.keys():

itms=_equalFlags[key]

if len(itms)>1:

for itm in itms:

print("|",itm["name"],"|",itm["path"],"|",itm["size"],"|",itm["ctime"],"|",itm["mtime"],"|",itm["md5"],"|")

'''

'如果想将扫描结果信息导出

'你可以这样做:

'''

import codecs

import json

import datetime

def getNowDate(): #获取时间

return str(datetime.datetime.now().strftime('%Y-%m-%dT%H.%M.%S'))

def wrTxt(path,text):#写入txt

f= codecs.open(path,'w',"utf-8")

f.write(text)

f.close()

def wrJson(path,jsonData):#写入json文件

wrTxt(path,json.dumps(jsonData,ensure_ascii=False))

wrJson("./扫描结果-"+getNowDate()+".json",_equalFlags)

wrJson("./错误结果-"+getNowDate()+".json",_errList)

效果

处理相同文件示例:

处理相同文件的方法很多,

比如:对于同一目录的子文件的话,操作很简单,直接删除;

对于不同目录的子文件就要具体情况具体分析了

这里拿对于同一目录不同命的重复文件进行直接删除到回收站的操作

首先 安装注意是删除到回收站 而不是直接删除,以防万一嘛!

当然你想直接删除或移动到某个目录都可以的。

import codecs

import json

from send2trash import send2trash

def rdJson(src, dm='utf-8'): # <===读取json

bfile = codecs.open(src, 'r', dm)

text = bfile.read()

bfile.close()

if text.startswith(u'\ufeff'):

text = text.encode('utf8')[3:].decode('utf8')

return json.loads(text)

data=rdJson("扫描结果-XXXX.json")#读取到的数据

for key in data.keys():

itms=data[key]

itmslen=len(itms)

if len(itms)>1:

for i in range(0,(itmslen-1)):

p=itms[i]['path']

print(p)

send2trash(p) #<====移动到回收站

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值