python解析Exif元数据

最新推荐文章于 2024-08-31 07:46:16 发布

Flemington、

最新推荐文章于 2024-08-31 07:46:16 发布

阅读量2.6k

点赞数 3

分类专栏： web 文章标签： python Exif

本文链接：https://blog.csdn.net/everywhere_wwx/article/details/83059419

版权

本文介绍了如何使用Python解析PDF和图像的元数据，特别是Exif数据。讲解了PyPDF用于提取PDF元数据，利用BeautifulSoup下载图像，以及用PIL库检查Exif元数据中的GPS信息。

摘要由CSDN通过智能技术生成

元数据

从文件中提取元数据。文件不是清晰可见的对象，元数据可以存在于文档，电子表格，图像，音频和视频等文件类型中。创作应用程序可能会存储一些细节如文件的作者，创建和修改时间，潜在的修订和注释。例如，拍照手机可以标记本地的GPS在照片中或者微软的 Word 应用程序可以存储文档的作者。检查每一个文件是个艰难的任务，我们可以使用Python自动处理。

使用PyPDF解析PDF元数据

PyPDF 是一个优秀的第三方管理 PDF 文件很实用的库，它提供了文档的信息提取，分割，合并，加密和解密的能力。

为了提取元数据，我们使用函数 getDocumentInfo()。这个方法返回一个元组数组，每一个元组包含一个元数据元素和它的值。遍历这个数组并打印 PDF 文件的全部元数据。

# coding = utf-8
import pyPdf
from pyPdf import PdfFileReader
import optparse


def printMeta(fileName):
    pdfFile = PdfFileReader(file(fileName, 'rb'))
    docInfo = pdfFile.getDocumentInfo()
    print('[*]PDF MetaData FOr:' + str(fileName))
    for metaItem in docInfo:
        print('[+]' + metaItem + ':' + docInfo[metaItem])


def main():
    parser = optparse.OptionParser('usage %prog -F <PDF file name>')
    parser.add_option('-F', dest='fileName', type='string', help='specify PDF file name')
    (options, args) = parser.parse_args()
    fileName = options.fileName
    if fileName == None:
        print(parser.usage)
        exit(0)
    else:
        printMeta(fileName)


if __name__ == '__main__':
    main()