看到法纳斯德 更新了一篇关于用Python清除文件夹中的重复视频的推文,于是自己也动手试了一试,并在他的基础上,根据自己研究的需要做了一点点改进。
他处理完之后的文件的名字去掉了原有文件的名字,按序号进行排序,我改进了一下,依然保留原有的文件名(保留成先处理的文件名)
在进行代码操作前,简单对相关知识做个简单的学习。
毕竟我们不能停留在表象,要去明白它们的原理。
这样才能做到举一反三,提高学习效率。
01 二进制文件
二进制文件是以文本的二进制形式存储在计算机中。
用户一般不能直接读取它们,需要通过相应的软件才能将其显示出来。
二进制文件一般是可执行程序、图形、图像、声音等等。
本次实现的就是图像类型的文件,即视频!
02 摘要算法(MD5)
摘要算法又称哈希算法、散列算法。
它通过一个函数,把任意长度的数据转换为一个长度固定的数据串(通常用16进制的字符串表示)。
即通过摘要函数对任意长度的数据(data)计算出固定长度的摘要(digest)。
目的是为了发现原始数据是否被人篡改过。
摘要算法之所以能指出数据是否被篡改过,是因为摘要函数是一个单向函数,计算f(data)很容易,但通过digest反推data却非常困难。
而且,对原始数据做一个bit的修改,都会导致计算出的摘要完全不同。
MD5是最常见的摘要算法,速度很快,生成结果是固定的128bit字节,通常用一个32位的16进制字符串表示。
摘要算法在很多地方都有广泛的应用。
不过它并不是加密算法,不能用于加密(因为无法通过摘要反推明文),只能用于防篡改。
它的单向计算特性决定了可以在不存储明文口令的情况下验证用户口令。
其中Python的hashlib提供了常见的摘要算法,如MD5,SHA1等等。
本次文件夹中的视频就是使用MD5摘要算法,得到视频的摘要。
相当于给了视频一个ID属性,具备唯一性。
那么通过比较视频的摘要,便可以清除重复的视频。
我们知道重复视频的文件大小肯定是一样的,那么通过文件大小应该也是可以清除重复的视频。
只不过有时也会有不重复的视频大小一样的,毕竟视频大小只是个物理属性,不具备唯一性。
03 shutil模块
shutil是高级的文件,文件夹,压缩包处理模块。
shutil.copyfile(old, new),拷贝文件函数(就是复制的意思)
清理单个文件夹
# #视频清除
import os
import shutil
# 递归文件夹创建
folder_path = 'F:/video/douyin_11'
os.makedirs(folder_path)
# 获取文件夹里的文件名字符串列表
filenames = os.listdir('D:\\素材\\视频')
##os.mkdir()创建路径中的最后一级目录,即:只创建path_03目录,而如果之前的目录不存在并且也需要创建的话,就会报错。
##os.makedirs()创建多层目录,即:Test,path_01,path_02,path_03如果都不存在的话,会自动创建
(size_list, name_list) = ([], [])
for name in filenames:
# 获取文件的路径
file_path = 'D:\\素材\\视频\\' + name
# 获取文件的大小
file_size = os.path.getsize(file_path)
# 如果不是重复视频的话,大小应该和列表中数据不一样
if file_size not in size_list:
# 获取不重复视频的大小
size_list.append(file_size)
# 获取不重复视频的路径
name_list.append(file_path)
# 使用shutil模块的copyfile函数,复制文件到新的文件夹中去
num = 0
for filename in name_list:
num += 1
oldname= filename
newname= 'F:\\video\\douyin_11\\' + str(num) + '.mp4'
shutil.copyfile(oldname, newname)
学习
os.makedirs() 创建新文件夹,注意与 os.makedir() 的区别;
(size_list, name_list) = ([], []) 批量创建列表
#获取文件的路径
file_path = ‘D:\\素材\\视频\\’ + name 用双斜杠也蛮好的
##去重的循环,先创建空列表,append第一个值,然后让后面的值不停地与列表对比,相同就不append,不同就append
#如果不是重复视频的话,大小应该和列表中数据不一样
if file_size not in size_list:
# 获取不重复视频的大小
size_list.append(file_size)
# 获取不重复视频的路径
name_list.append(file_path)
shutil.copyfile(oldname, newname) 复制文件
清理不同的文件夹
##不同文件夹
import os
import shutil
import hashlib
# 摘要算法(MD5)实现视频摘要获取
def getmd5(file_path):
# 判断文件路径是否存在及文件是否为一个文件,意思应该是文件夹就会报错
if not os.path.isfile(file_path):
return
# rb,以二进制读模式打开
vediofile = open(file_path, 'rb')
md5 = hashlib.md5()
md5.update(vediofile.read())
vediofile.close()
# 返回视频文件的MD5值
return md5.hexdigest()
# 递归文件夹创建
folder_path = "F:/video/douyin_22"
os.makedirs(folder_path)
# 获取文件夹里的文件夹名字符串列表
foldernames = os.listdir('D:\\素材')
(value_list, name_list) = ([], [])
for folder in foldernames:
# 获取文件夹的路径
folder_name = 'D:\\素材\\' + folder
# 获取文件夹里的文件名字符串列表
file_names = os.listdir(folder_name)
for file_name in file_names:
# 获取文件的路径
file_path = folder_name + '\\' + file_name
# 获取文件的MD5值
value = getmd5(file_path)
# 如果不是重复视频的话,MD5值应和列表中数据不一样
if value not in value_list:
# 获取不重复视频的MD5值
value_list.append(value)
# 获取不重复视频的路径
name_list.append(file_path)
# 使用shutil模块的copyfile函数,复制文件到新的文件夹中去
num = 0
for filename in name_list:
num += 1
oldname= filename
newname= 'F:\\video\\douyin_22\\' + str(num) + '.mp4'
shutil.copyfile(oldname, newname)
学习
for folder in foldernames:
# 获取文件夹的路径
folder_name = ‘D:\素材\’ + folder
# 获取文件夹里的文件名字符串列表
file_names = os.listdir(folder_name)
for file_name in file_names:
双重遍历,同时处理不同的文件夹
改进
对改进部分加粗区别
(value_list, name_list, wenjian_names) = ([], [], [])
for folder in foldernames:
# 获取文件夹的路径
folder_name = ‘D:\素材\xlsx\’ + folder
# 获取文件夹里的文件名字符串列表
file_names = os.listdir(folder_name)
for file_name in file_names:
#获得原始文件的name
wenjian_name = str(file_name)
# 获取文件的路径
file_path = folder_name + ‘\’ + file_name
# 获取文件的MD5值
value = getmd5(file_path)
# 如果不是重复视频的话,MD5值应和列表中数据不一样
if value not in value_list:
# 获取不重复视频的MD5值
value_list.append(value)
# 获取不重复视频的路径
name_list.append(file_path)
wenjian_names.append(wenjian_name)
#num = 0
for filename, wenjian_name in zip(name_list, wenjian_names):
#num += 1
oldname= filename
newname= ‘F:\video\douyin_xlsxName\’ + str(wenjian_name)
shutil.copyfile(oldname, newname)
运行结果
源文件
博主的不带源文件name的运行结果
带源文件name的运行结果
总结
也可以用于清除重复的照片、音频、电子书
不同的文件夹中的照片、音频和电子书也可以用MD5(摘要算法、哈西算法)
对于不同的格式,发现一个有趣的事:
当以jpg结尾时,即使源文件是png格式,也会转成jpg格式
newname= ‘F:\video\douyin_图片png\’ + str(wenjian_name) +’.jpg’
shutil.copyfile(oldname, newname)
当不加格式时,默认为源文件格式,应该跟shutil.copyfile函数有关
newname= ‘F:\video\douyin_图片png\’ + str(wenjian_name)
shutil.copyfile(oldname, newname)
所有源代码
# #视频清除
import os
import shutil
# 递归文件夹创建
folder_path = 'F:/video/douyin_11'
os.makedirs(folder_path)
# 获取文件夹里的文件名字符串列表
filenames = os.listdir('D:\\素材\\视频')
##os.mkdir()创建路径中的最后一级目录,即:只创建path_03目录,而如果之前的目录不存在并且也需要创建的话,就会报错。
##os.makedirs()创建多层目录,即:Test,path_01,path_02,path_03如果都不存在的话,会自动创建
(size_list, name_list) = ([], [])
for name in filenames:
# 获取文件的路径
file_path = 'D:\\素材\\视频\\' + name
# 获取文件的大小
file_size = os.path.getsize(file_path)
# 如果不是重复视频的话,大小应该和列表中数据不一样
if file_size not in size_list:
# 获取不重复视频的大小
size_list.append(file_size)
# 获取不重复视频的路径
name_list.append(file_path)
# 使用shutil模块的copyfile函数,复制文件到新的文件夹中去
num = 0
for filename in name_list:
num += 1
oldname= filename
newname= 'F:\\video\\douyin_11\\' + str(num) + '.mp4'
shutil.copyfile(oldname, newname)
#############################################################################
##不同文件夹
import os
import shutil
import hashlib
# 摘要算法(MD5)实现视频摘要获取
def getmd5(file_path):
# 判断文件路径是否存在及文件是否为一个文件,意思应该是文件夹就会报错
if not os.path.isfile(file_path):
return
# rb,以二进制读模式打开
vediofile = open(file_path, 'rb')
md5 = hashlib.md5()
md5.update(vediofile.read())
vediofile.close()
# 返回视频文件的MD5值
return md5.hexdigest()
# 递归文件夹创建
folder_path = "F:/video/douyin_22"
os.makedirs(folder_path)
# 获取文件夹里的文件夹名字符串列表
foldernames = os.listdir('D:\\素材')
(value_list, name_list) = ([], [])
for folder in foldernames:
# 获取文件夹的路径
folder_name = 'D:\\素材\\' + folder
# 获取文件夹里的文件名字符串列表
file_names = os.listdir(folder_name)
for file_name in file_names:
# 获取文件的路径
file_path = folder_name + '\\' + file_name
# 获取文件的MD5值
value = getmd5(file_path)
# 如果不是重复视频的话,MD5值应和列表中数据不一样
if value not in value_list:
# 获取不重复视频的MD5值
value_list.append(value)
# 获取不重复视频的路径
name_list.append(file_path)
# 使用shutil模块的copyfile函数,复制文件到新的文件夹中去
num = 0
for filename in name_list:
num += 1
oldname= filename
newname= 'F:\\video\\douyin_22\\' + str(num) + '.mp4'
shutil.copyfile(oldname, newname)
#############################################################################
##不同文件夹清理 重复照片
##尝试保留原始文件的name
import os
import shutil
import hashlib
# 摘要算法(MD5)实现视频摘要获取
def getmd5(file_path):
# 判断文件路径是否存在及文件是否为一个文件,意思应该是文件夹就会报错
if not os.path.isfile(file_path):
return
# rb,以二进制读模式打开
vediofile = open(file_path, 'rb')
md5 = hashlib.md5()
md5.update(vediofile.read())
vediofile.close()
# 返回视频文件的MD5值
return md5.hexdigest()
# 递归文件夹创建
folder_path = "F:/video/douyin_xlsxName"
os.makedirs(folder_path)
# 获取文件夹里的文件夹名字符串列表
foldernames = os.listdir('D:\\素材\\xlsx')
(value_list, name_list, wenjian_names) = ([], [], [])
for folder in foldernames:
# 获取文件夹的路径
folder_name = 'D:\\素材\\xlsx\\' + folder
# 获取文件夹里的文件名字符串列表
file_names = os.listdir(folder_name)
for file_name in file_names:
#获得原始文件的name
wenjian_name = str(file_name)
# 获取文件的路径
file_path = folder_name + '\\' + file_name
# 获取文件的MD5值
value = getmd5(file_path)
# 如果不是重复视频的话,MD5值应和列表中数据不一样
if value not in value_list:
# 获取不重复视频的MD5值
value_list.append(value)
# 获取不重复视频的路径
name_list.append(file_path)
wenjian_names.append(wenjian_name)
# 使用shutil模块的copyfile函数,复制文件到新的文件夹中去
#num = 0
for filename, wenjian_name in zip(name_list, wenjian_names):
#num += 1
oldname= filename
newname= 'F:\\video\\douyin_xlsxName\\' + str(wenjian_name)
shutil.copyfile(oldname, newname)