用calibre抓取乌云知识库并生成电子书

本文介绍了如何利用Calibre和Chrome的开发者工具,分析乌云知识库的页面结构,编写recipe脚本来抓取文章并生成电子书。通过Python的Beautiful Soup库,提取内容并使用Calibre的ebook-convert功能,最终将400多篇网络安全相关的文章整合成一本epub格式的电子书。
摘要由CSDN通过智能技术生成

最近在研究网络安全相关知识,看到乌云知识库有很多高质量文章,由于在网上一篇篇翻看过去太麻烦,就研究了一下用Calibre自己编写recipe自动下载并生成电子书的方法。

花了点时间用此方法将乌云知识库上截止2015年2月11日为止的400多篇文章整理成了一本epub格式的电子书,不愿折腾的可以直接点击——乌云知识库博客汇总——下载。

工具简介和准备

Calibre

Calibre是一个“一站式”的电子书解决方案,它可以全面满足你的电子书需求。Calibre是免费的,源代码开放,拥有跨平台的设计,可在Linux, OS X和Windows操作系统中运行。
  它是一个完整的电子图书馆,包括图书馆管理,格式转换,新闻,将材料转换为电子书,以及电子书阅读器同步功能、整合进电子图书阅读器。

此处我们用到的是Calibre的command line tools中的ebook-convert功能,请前往此处下载安装。

Mac下该工具已包含在安装包中,用户在使用前请执行export PATH="$PATH:/Applications/calibre.app/Contents/MacOS/"将cli tools路径加入系统路径,或将此句加入.bashrc

其他系统暂未测试,欢迎留言补充说明。

Chrome

使用开发者工具来分析页面结构,用来在recipe中指定下载的内容。

制作过程

分析页面结构

先到乌云知识库页面查看。

乌云知识库界面

从页面底部的信息可以看到该知识库由wordpress生成,总共47页。
点击发现每一个目录页

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值