今天用到是python的一个第三方库: pdfkit
pdfkit 是一个十分强大的第三方库,只需要把网页的url(需要登录或其他特殊方式才能访问的除外)传入,仅靠它自己就能将网页保存为pdf。当然,pdfkit 库也支持文件和源码的传入,同样能将获取到的保存为pdf。
使用工具:pdfkit
环境准备:
搭建python开发环境
在cmd下运行下面的命令
pip install pdfkit
源码讲解环节
好的,下面就是喜闻乐见的源码讲解环节了(´◔౪◔)
import requests
import pdfkit
# 直接访问url
# 一篇新浪博客的url
url = 'http://blog.sina.com.cn/s/blog_4b0f52990102z24g.html'
# 这里指定一下wkhtmltopdf的路径,这就是我为啥在前面让记住这个路径
confg = pdfkit.configuration(wkhtmltopdf=r'F:\13-wkhtmltopdf\wkhtmltopdf\bin\wkhtmltopdf.exe')
pdfkit.from_url(url, 'test1.pdf', configuration=confg)
# 用requests爬取到的网页代码生成pdf
header = {"User-Agent":"Mozilla/5.