将电子书转为PDF涉及的PDF拆分合并总结

本文介绍了如何使用Python爬虫抓取电子书内容并转换为PDF,以及利用Adobe Reader 9.0进行PDF的拆分和合并。通过爬取Python3 CookBook网站,将HTML页面转换为PDF,并最终合并成一个完整的手册。
摘要由CSDN通过智能技术生成

因为阅读网上的很多电子书存在翻页繁琐和查找不方便的问题,也很难在网站上做笔记。故查阅部分资料想要自己写一个小爬虫,然后可以将爬取到的电子书内容页面(html格式)最终保存成PDF格式。故编写如下爬虫代码来实现此功能。由于Python3和Python2.7的版本兼容性问题,from main import WKhtmlToPdf, wkhtmltopdf 始终未能或者成功,故只在正确爬取了电子书后,我并不能将很好的将已经处理成单页的PDF文件拼接起来合成一个大的PDF文件。但是,条条大路通罗马,我发现Adobe reader9.0可以直接帮助我解决PDF的拆分与合并问题。最终依然可以达到异曲同工的作用!

1.Adobe reader9.0直接做拆分
直接通过Adobe reader9.0打开要拆分的PDF,然后选择"文档">“拆分文档”>页数=1>确定>大功告成!
在这里插入图片描述
2.使用Adobe reader9.0直接做合并
“文件”>“合并”>“合并文件到单个PDF”>“添加文件”>通过上移和下调文件位置>合并文件>大功告成!
在这里插入图片描述
3.使用爬虫爬取网站电子书的HTML,转换成为PDF后,再做PDF文件的合并
原理很简单:通过查看网页源代码,发现网页布局上感兴趣的标签的规律,然后分别取到一级标题及其URL链接,二级标题及其URL链接,如此进行即可。说到这里,这种嵌套的逻辑使用多层字典即可很好的完成嵌套分层功能。本文爬取的网站为:http://python3-cookbook.readthedocs.io/zh_CN/latest/ ,此网站是学习Python3的最佳如本教程之一。

3.1.代码

# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup
import requests
import random
import time
import pandas as pd 
import os 
import sys
#from imp import reload 
#reload(MyModule)
#from main import WKhtmlToPdf, wkhtmltopdf 
#wkhtmltopdf在界面执行失败,所以使用命令行试试。
import re   
import pdfkit   
from PyPDF2 import PdfFileMerger

def parse_title_and_url(html):
    """
        python3-cookbook电子网页转为PDF,提取一二级标题。
    "&
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值