python epub解析_python 解析电子书的信息

本文介绍了一个Python脚本,它使用lxml库解析EPUB文件的'META-INF/container.xml',以获取电子书的元数据,如标题、作者、出版商等信息。该脚本适用于那些不兼容Amazon Kindle的开放性资源格式EPUB电子书。
摘要由CSDN通过智能技术生成

epub 书是可供人们下载的开放性资源格式的电子图书。epub 文件通常与类似亚马逊Kindle 这样的电子阅读器不兼容。

70f60432dc3a3c731ce1595495497c54.jpg

一个epub 文件包含两个文件:一个包含数据的压缩文件(.zip文件)以及一个描述压缩文件信息的XML 格式文件。下面是通过python 的lxml 库来解析这个描述压缩文件信息的XML 文件。从而得到相关信息:

#!/usr/bin/env python

# -*- coding: utf-8 -*-

import zipfile

from lxml import etree

def get_epub_info(fname):

ns = {

'n': 'urn:oasis:names:tc:opendocument:xmlns:container',

'pkg': 'http://www.idpf.org/2007/opf',

'dc': 'http://purl.org/dc/elements/1.1/'

}

# prepare to read from the .epub file

_zip = zipfile.ZipFile(fname)

# find the contents metafile

txt = _zip.read('META-INF/container.xml')

tree = etree.fromstring(txt)

cfname

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值