python解析Exif元数据

本文介绍了如何使用Python解析PDF和图像的元数据,特别是Exif数据。讲解了PyPDF用于提取PDF元数据,利用BeautifulSoup下载图像,以及用PIL库检查Exif元数据中的GPS信息。
摘要由CSDN通过智能技术生成

元数据

从文件中提取元数据。文件不是清晰可见 的对象,元数据可以存在于文档,电子表格,图像,音频和视频等文件类型中。 创作应用程序可能会存储一些细节如文件的作者,创建和修改时间,潜在的修订和注释。例如,拍照手机可以标记本地的GPS在照片中或者微软的 Word 应用程序可以存储文档的作者。检查每一个文件是个艰难的任务,我们可以使用Python自动处理。

使用PyPDF解析PDF元数据

PyPDF 是一个优秀的第三方管理 PDF 文件很实用的库,它提供了文档的信息提取,分割,合并,加密 和解密的能力。

为了提取元数据,我们使用函数 getDocumentInfo()。这个方法返回一个元组数组,每一个元组包含一个元数据元素和它的值。遍历这个数组并打印 PDF 文件的全部元数据。

# coding = utf-8
import pyPdf
from pyPdf import PdfFileReader
import optparse


def printMeta(fileName):
    pdfFile = PdfFileReader(file(fileName, 'rb'))
    docInfo = pdfFile.getDocumentInfo()
    print('[*]PDF MetaData FOr:' + str(fileName))
    for metaItem in docInfo:
        print('[+]' + metaItem + ':' + docInfo[metaItem])


def main():
    parser = optparse.OptionParser('usage %prog -F <PDF file name>')
    parser.add_option('-F', dest='fileName', type='string', help='specify PDF file name')
    (options, args) = parser.parse_args()
    fileName = options.fileName
    if fileName == None:
        print(parser.usage)
        exit(0)
    else:
        printMeta(fileName)


if __name__ == '__main__':
    main()

理解Exif元数据

Exif 是一种图象文件格式,它的数据存储与 JPEG 格式是完全相同的。实际上 Exif 格式就是在 JPEG 格式头部插入了数码照片的信息,包括

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值