pdfkit selenuim PhantomJS, 将html保存为pdf的几种方法

html to pdf 你都遇到了什么坑?

下面简单介绍我接触过的三种方法,不同环境下不同的坑~~~

方法一:pdfkit

1. 安装pdfkit
pip install pdfkit
2. 安装wkhtmltopdf
wget https://github.com/wkhtmltopdf/wkhtmltopdf/releases/download/0.12.4/wkhtmltox-0.12.4_linux-generic-amd64.tar.xz
sudo tar -xvf wkhtmltox-0.12.4_linux-generic-amd64.tar.xz
sudo cp wkhtmltox/bin/wkhtmltopdf /usr/bin/
##如果报错,可尝试下面代码
sudo apt-get update
sudo apt-get install evince
##可安装必要的字体
sudo apt-get install fonts-wqy-zenhei
3. 使用说明

新建一个python脚本内容如下,其中,网址随意

import pdfkit
##options根据需要配置,也可以不配置
options = {'page-size':'B5','footer-center':'[page]','javascript-delay':100}
##从网页打印pdf
pdfkit.from_url('http://rdp.cme.msu.edu/misc/rel10info.jsp#release11','./a.pdf',options= options)
#从本地html打印pdf
pdfkit.from_file('*.html','./h.pdf',options= options)

就可以了。
pdfkit 是非常强大的,打印速度飞快,但是批量从远程服务器打印时,有时候会遇到js加载失败的情况。

补充一下:上面说的是linux下,如果是在 windows下,安装wkhtmltopdf后,运行时需要指定wkhtmltopdf的路径,参考以下脚本中的path_wk。

##打印出pdf
import pdfkit
def export_pdf():
    #options = {'page-size': 'B5', 'footer-center': '[page]', 'javascript-delay': 100}
    path_wk = r'C:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe'  # 安装位置
    config = pdfkit.configuration(wkhtmltopdf=path_wk)
    with open('render.html', 'r', encoding='utf-8') as f:
        pdfkit.from_file(f, 'map.pdf', configuration=config)
export_pdf()
print('pdf generated')

方法二:selenuim+chrome

1. 安装Chrome,Chromedriver

Chromedriver下载链接:
http://npm.taobao.org/mirrors/chromedriver/
进入连接选择较新版本的linux 压缩包,复制链接 wget 一下,unzip *.zip, 然后将解压后的文件放入/usr/bin/chromedriver, 然后

给予执行权限
sudo chmod u+x,o+x /usr/bin/chromedriver
测试
chromedriver --version

安装chrome以及一些字体

# yum info google-chrome-stable
# yum install -y google-chrome-stable
# yum install -y mesa-libOSMesa mesa-libOSMesa-devel gnu-free-sans-fonts
# yum install -y ipa-gothic-fonts ipa-pgothic-fonts
2.安装selenium
pip install  selenium

如果出现了幺蛾子,尝试以下方法解决:

# vi /etc/yum.repos.d/chrome.repo
## 上述步骤,不能直接vi的话可以先创建相应目录用chmod 加权限。
在上述文件输入以下内容:

[google-chrome]
name=google-chrome
baseurl=http://dl.google.com/linux/chrome/rpm/stable/$basearch
enabled=1
gpgcheck=1
gpgkey=https://dl-ssl.google.com/linux/linux_signing_key.pub
3. 使用说明

直接在命令行运行就可以啦

##从url打印pdf
google-chrome --no-sandbox --headless --disable-gpu --print-to-pdf='cc5.pdf' http://127.0.0.1:8097/pdf
google-chrome --no-sandbox --headless --disable-gpu --screenshot --window-size=800,1000 http://127.0.0.1:8097/pdf

##从html文件打印PDF:
google-chrome --no-sandbox --headless --disable-gpu --print-to-pdf='cc5.pdf' test.html

OK啦,这种方法有时候打印的比较慢, 有时候有一些error但是并不影响输出pdf~

方法三:selenuim+PhantomJS

想尝试这种方法的最好在windows环境下尝试,因为selenuim和PhantomJS即将不再合作,linux下我测试时遇到了问题。

1. 安装Chromedriver

需要注意的是,下载的ChromeDriver与Chrome版本要对应起来,两者的对应参照表可参考以下表格:
在这里插入图片描述
Chromedriver下载链接:
http://npm.taobao.org/mirrors/chromedriver/
下载完解压后是一个exe 文件,将这个文件直接放入其他已经加入到环境变量的路径里面就可以了
比如C:\Users\xuyan\Anaconda3\Scripts。

2.安装selenium
pip install  selenium
3.安装Phantomjs

下载链接:http://phantomjs.org/download.html
下载后解压后的包放到一个合适的路径下,将它的bin路径加入到环境变量里面就可以了。

3.使用说明
from selenium import webdriver

def execute(script, args):
    driver.execute('executePhantomScript', {'script': script, 'args': args})

driver = webdriver.PhantomJS('phantomjs')

#driver=webdriver.Chrome()
# hack while the python interface lags
driver.command_executor._commands['executePhantomScript'] = ('POST', '/session/$sessionId/phantom/execute')
driver.get('http://192.168.58.36/rept/gut/gen.php?q=22021561482')
# set page format
# inside the execution script, webpage is "this"
pageFormat = '''this.paperSize = {format: "Legal", orientation: "portrait" };'''
execute(pageFormat, [])
# render current page
render = '''this.render("demo.pdf")'''
execute(render, [])

OK了,大致就是这些啦~

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值