Google相册元数据修复

最新推荐文章于 2025-05-06 13:55:58 发布

ByG先生

最新推荐文章于 2025-05-06 13:55:58 发布

阅读量1.6k

点赞数

本文链接：https://blog.csdn.net/qq_35056934/article/details/118343267

版权

本文介绍了如何处理从Google相册批量导出的数据问题，包括元信息丢失、照片和视频重复、时间线混乱及短视频过多。通过编写Python脚本，利用ffmpeg库，修复Exif数据，删除或归类重复文件，整理格式照片和短视频。最终实现照片日期修复，重复内容管理和短视频过滤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前提

承接上一篇《如何批量导出Google相册所有数据》
根据上一篇的方法导出的归档数据，往往许多信息都被抹除了，也就是Meta信息丢失，其中包括但不限于照片的定位信息（经纬度）、拍摄时间、拍照设备、光圈等一大堆信息。如果你默认下载了所有相册集，那么可能会有大量重复照片等着你，最可气的是如果你没有调整IOS设备的拍照格式的话，默认拍出的都是HEIC/HEVC格式的内容，而Google恰恰又把IOS设备默认的HEIC格式照片直接处理成了一个jpg加一个2到3秒左右的MOV短视频，如果你使用HEIC拍摄了大量照片，那可能只能一个个手动在相册选择删除。

所以一般来讲，通过归档批量导出的数据，可能会遇到以下几种情况：

Meta信息丢失
重复
时间混乱
多出大量的短视频

所以我一直在思考要如何处理这些问题。
首先是Meta信息丢失，直接导致了我把照片直接导入相册后时间线混乱，可能我昨天拍的照片会出现在2007年那一栏中，其次往往许多照片旁边伴随着一个2秒短视频，相册一眼望过去全是重复内容，让人苦恼不堪。

用Google search了一圈，发现网上有人提出问题，但是没人解决，痛定思痛，我决定写个小脚本批量处理，然后再导入手机。（最底下有完整代码，也已经放在Github上）

最终实现了

视频时长短于2s的，放在了under2文件夹下，短于3s的，全部放在了under3文件夹下
重复文件默认被删除，包括.json和视频文件，如果代码中dealDuplicate(False)，则会归类到Duplicate文件夹下
根据所有.json文件修复了照片的Exif数据和日期
HEIC格式相片统一放在了同名文件夹下json文件统一放在json文件夹里

脚本是python写的，没怎么用过这个语言，本着实用主义原则，代码可能并不优雅

重复照片

我仔细观察了一下，发现大量重复照片和视频的下载名称都相同，那就直接扫描文件夹，把重复文件剔除即可

重复照片

def dealDuplicate(delete=True):
    fileList = {
   }
    dg = os.walk(scanDir)
    for path,dir_list,file_list in dg:
        for file_name in file_list:
            full_file_name = os.path.join(path, file_name)
            if file_name == '元数据.json':
                continue
            #处理重复文件
            if file_name in fileList.keys():
                DupDir = scanDir + '/Duplicate/'
                if not os.path.exists(DupDir):
                    os.makedirs(DupDir)
                if delete:
                    os.remove(full_file_name) #这里可以直接删除
                else:
                    if not os.path.exists(DupDir + file_name):
                        shutil.move(full_file_name, DupDir)
                print('重复文件：' + full_file_name + ' ------ ' + fileList[file_name])
            else:
                fileList[file_name] = full_file_name
    fileList.clear()

重复短视频

另一个就是大量HEIC转换出来的大量短视频，都是.MOV格式文件，这里我选择通过ffmpeg判断视频时长，进而把时长在3s以内的视频过滤出来，最终~~全部删除~~有选择地分门别类。

大量短视频

这里需要安装一下ffmpeg的扩展，pip3 install ffmpeg-python即可

还有一点是需要提前安装好ffmepg可执行文件并配置好环境变量，否则有可能会报找不到ffprobe错误

#文件分类
def dealClassify():
    #部分文件变了，重新扫描
    g = os.walk(scanDir)
    for path, dir_list, file_list in g:
        for file_name in file_list:
            full_file_name = os.path.join(path, file_name)
            #处理时长低于3s的视频
            if os.path.splitext(file_name)[-1] == '.MOV':
                print('根据时长分类文件：' + full_file_name)
                info = ffmpeg.probe(full_file_name)
                #print(info)
                duration = info['format'][

最低0.47元/天解锁文章