指定路径下重复内容文件的删除
手动反爬虫: 原博地址
知识梳理不易,请尊重劳动成果,文章仅发布在CSDN网站上,在其他网站看到该博文均属于未经作者授权的恶意爬取信息
1. 背景需求
有时使用相机把拍摄的照片上传到电脑里,但是会由于相片的数量很多,导致之前上传的照片可能多次上传了,而现在的每张照片的内存都很大,因此就有了一个需要:把指定路径下(比如上传照片的根文件夹里)所有的照片进行重复内容的删除,只保留一张有效的照片。
比如上面的三张图片实际上是同一张照片,但是文件名称和文件的格式是不同的,最后处理的结果要求是只保留一张图片即可。同样的场景需求也适用在重复文件(比如word、excel、pdf、txt等)中
2. hash函数
hash()
函数是python内置的函数,用于获取取一个对象(字符串或者数值 等)的哈希值。这里可以使用此方法进行文件的唯一性检验
2.1 字符串及数值一致性检验