python 知乎合并 pdf_32.使用selenium爬取知乎，并实现多页保存为一个PDF文件

最新推荐文章于 2022-04-24 16:19:09 发布

低调王子

最新推荐文章于 2022-04-24 16:19:09 发布

阅读量385

点赞数

文章标签： python 知乎合并 pdf

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42449311/article/details/113966397

版权

本文介绍了如何使用Python的Selenium库爬取知乎的多个回答页面，将其分别保存为HTML，然后转换成PDF。通过将多个PDF合并，最终形成一个包含所有回答的单一PDF文件。主要涉及的工具有wkhtmltopdf和PyPDF2。

摘要由CSDN通过智能技术生成

1.动机

对于知乎的一些高知大V，他们的回答总是那么具有说服力，通过阅读他们的回答，了解他们对热点事件的分析方式，通过现象看本质，一不至于被带节奏，二增加自己的知识面。多读多看，大有裨益。那如果在网络信号不太好或不舍得太多流量的情况下(穷)，能够翻看他们的回答就太好了。

本篇介绍一下如何把”恶喵的奶爸“知乎回答页全部下载下来并保存为一个PDF。

1.1.分析

实现方式一，获取全部HTML源代码，将多个HTML文件合成一个HTML文件，将最后合成的这个文件保存为PDF。

实现方式二，将单个HTML文件保存为PDF，再将多个PDF合成一个。

经分析，后者更容易实现。

在正式爬之前，多做一些本地的测试，在本地能够行得通，再去骚扰目标网站。这样做的目的，一是不让网站运营者恶心；二是节约自己的时间和精力，因为大型网站大多有自己的反爬措施，频繁骚扰两三次，ip就被封了，那还要考虑换ip等一系列问题。

2.将本地HTML保存为PDF文件

先用selenium访问以下目标网站，将源代码保存到本地HTML，然后用本地的HTML做测试。

# -*- coding: utf-8 -*-

# @AuThor : frank_lee

import pdfkit

htmlfile = open("zhihu_answer.html", 'r', encoding='utf-8')

confg = pdfkit.configuration(wkhtmltopdf=r'D:\htmlpdf\wkhtmltopdf\bin\wkhtmltopdf.exe')

pdfkit.from_url(htmlfile, 'zhihu.pdf', configuration=confg)

2.1.上面代码能够正常执行的先决条件--安装wkhtmltopdf、pdfkit

根据自己的操作系统下载对应的版本即可。安装完成后可以将其加入到环境变量中，也可以不加入，但每次使用时需要调用wkhtmltopdf.exe的绝对路径。

2.2.2.安装pdfkit模块

pip install pdfkit

3.将一个本地HTML文件保存为多个PDF文件

import pdfkit

import time

i = 0

while i < 4:

# pdfname = "zhihu{}".format(i)+".pdf"

htmlfile = open("zhihu_answer.html", 'r', encoding='utf-8')

confg = pdfkit.configuration(wkhtmltopdf=r'D:\htmlpdf\wkhtmltopdf\bin\wkhtmltopdf.exe')

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 知乎合并 pdf_32.使用selenium爬取知乎，并实现多页保存为一个PDF文件

1.动机对于知乎的一些高知大V，他们的回答总是那么具有说服力，通过阅读他们的回答，了解他们对热点事件的分析方式，通过现象看本质，一不至于被带节奏，二增加自己的知识面。多读多看，大有裨益。那如果在网络信号不太好或不舍得太多流量的情况下(穷)，能够翻看他们的回答就太好了。本篇介绍一下如何把”恶喵的奶爸“知乎回答页全部下载下来并保存为一个PDF。1.1.分析实现方式一，获取全部HTML源代码，将多个HT...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。