从BLOG到电子书——把wordpress备份的WXR转为epub

古人云,敝帚自珍。

虽然自己写的BLOG都是些没营养的东西,但还是想收藏起来。

花了点时间研究了一下epub格式,写了段转换程序,把Wordpress导出的备份文件WXR转成epub格式。

本想贴代码凑数,结果发现代码还是多了点,所以还是改成下载吧。

第一个是生成epub的库:epubbuilder.py

(源码附后)

之后是解析WXR并调用epubbuilder生成epub的主程序:wxr2epub.py

(源码附后)

下载:wxr2epub source code 5.4K(GPL)

使用时在源目录下放一个叫做wordpress.xml的WXR文件,再创建一个images的子目录,里面放上文章中所有引用过的图片,最好有一个叫cover.jpg的,这个图片将会被作为电子书的封面。生成的电子书每一篇文章及其评论会作为电子书的一个章节,文章多的话,目录项会很多,某些电子书软件可能无法完全显示所有目录项。

所以说,还是开放好啊。Wordpress的WXR用的是开放的XML格式,epub也是用开放的zip+HTML+XML格式。

像CSDN BLOG这种自己开发的平台就没办法了……当然也不是完全没有办法,可以自己写一个爬虫去把页面全抓下来,再用pyquery之类的解析出内容,然后生成epub。不过这就麻烦得多了,除了程序写起来麻烦以外,还要防止爬得过猛被网站封IP之类的副作用——这事我也干过,不过不是对CSDN。



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值