html to pdf 你都遇到了什么坑?
下面简单介绍我接触过的三种方法,不同环境下不同的坑~~~
方法一:pdfkit
1. 安装pdfkit
pip install pdfkit
2. 安装wkhtmltopdf
wget https://github.com/wkhtmltopdf/wkhtmltopdf/releases/download/0.12.4/wkhtmltox-0.12.4_linux-generic-amd64.tar.xz
sudo tar -xvf wkhtmltox-0.12.4_linux-generic-amd64.tar.xz
sudo cp wkhtmltox/bin/wkhtmltopdf /usr/bin/
##如果报错,可尝试下面代码
sudo apt-get update
sudo apt-get install evince
##可安装必要的字体
sudo apt-get install fonts-wqy-zenhei
3. 使用说明
新建一个python脚本内容如下,其中,网址随意
import pdfkit
##options根据需要配置,也可以不配置
options = {'page-size':'B5','footer-center':'[page]','javascript-delay':100}
##从网页打印pdf
pdfkit.from_url('http://rdp.cme.msu.edu/misc/rel10info.jsp#release11','./a.pdf',options= options)
#从本地html打印pdf
pdfkit.from_file('*.html','./h.pdf',options= options)
就可以了。
pdfkit 是非常强大的,打印速度飞快,但是批量从远程服务器打印时,有时候会遇到js加载失败的情况。
补充一下:上面说的是linux下,如果是在 windows下,安装wkhtmltopdf后,运行时需要指定wkhtmltopdf的路径,参考以下脚本中的path_wk。
##打印出pdf
import pdfkit
def export_pdf():
#options = {'page-size': 'B5', 'footer-center': '[page]', 'javascript-delay': 100}
path_wk = r'C:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe' # 安装位置
config = pdfkit.configuration(wkhtmltopdf=path_wk)
with open('render.html', 'r', encoding='utf-8') as f:
pdfkit.from_file(f, 'map.pdf', configuration=config)
export_pdf()
print('pdf generated')
方法二:selenuim+chrome
1. 安装Chrome,Chromedriver
Chromedriver下载链接:
http://npm.taobao.org/mirrors/chromedriver/
进入连接选择较新版本的linux 压缩包,复制链接 wget 一下,unzip *.zip, 然后将解压后的文件放入/usr/bin/chromedriver, 然后
给予执行权限
sudo chmod u+x,o+x /usr/bin/chromedriver
测试
chromedriver --version
安装chrome以及一些字体
# yum info google-chrome-stable
# yum install -y google-chrome-stable
# yum install -y mesa-libOSMesa mesa-libOSMesa-devel gnu-free-sans-fonts
# yum install -y ipa-gothic-fonts ipa-pgothic-fonts
2.安装selenium
pip install selenium
如果出现了幺蛾子,尝试以下方法解决:
# vi /etc/yum.repos.d/chrome.repo
## 上述步骤,不能直接vi的话可以先创建相应目录用chmod 加权限。
在上述文件输入以下内容:
[google-chrome]
name=google-chrome
baseurl=http://dl.google.com/linux/chrome/rpm/stable/$basearch
enabled=1
gpgcheck=1
gpgkey=https://dl-ssl.google.com/linux/linux_signing_key.pub
3. 使用说明
直接在命令行运行就可以啦
##从url打印pdf
google-chrome --no-sandbox --headless --disable-gpu --print-to-pdf='cc5.pdf' http://127.0.0.1:8097/pdf
google-chrome --no-sandbox --headless --disable-gpu --screenshot --window-size=800,1000 http://127.0.0.1:8097/pdf
##从html文件打印PDF:
google-chrome --no-sandbox --headless --disable-gpu --print-to-pdf='cc5.pdf' test.html
OK啦,这种方法有时候打印的比较慢, 有时候有一些error但是并不影响输出pdf~
方法三:selenuim+PhantomJS
想尝试这种方法的最好在windows环境下尝试,因为selenuim和PhantomJS即将不再合作,linux下我测试时遇到了问题。
1. 安装Chromedriver
需要注意的是,下载的ChromeDriver与Chrome版本要对应起来,两者的对应参照表可参考以下表格:
Chromedriver下载链接:
http://npm.taobao.org/mirrors/chromedriver/
下载完解压后是一个exe 文件,将这个文件直接放入其他已经加入到环境变量的路径里面就可以了
比如C:\Users\xuyan\Anaconda3\Scripts。
2.安装selenium
pip install selenium
3.安装Phantomjs
下载链接:http://phantomjs.org/download.html
下载后解压后的包放到一个合适的路径下,将它的bin路径加入到环境变量里面就可以了。
3.使用说明
from selenium import webdriver
def execute(script, args):
driver.execute('executePhantomScript', {'script': script, 'args': args})
driver = webdriver.PhantomJS('phantomjs')
#driver=webdriver.Chrome()
# hack while the python interface lags
driver.command_executor._commands['executePhantomScript'] = ('POST', '/session/$sessionId/phantom/execute')
driver.get('http://192.168.58.36/rept/gut/gen.php?q=22021561482')
# set page format
# inside the execution script, webpage is "this"
pageFormat = '''this.paperSize = {format: "Legal", orientation: "portrait" };'''
execute(pageFormat, [])
# render current page
render = '''this.render("demo.pdf")'''
execute(render, [])
OK了,大致就是这些啦~