使用 Chrome Headless 模式将 HTML 转 PDF

最新推荐文章于 2025-03-26 14:25:24 发布

hochenchong

最新推荐文章于 2025-03-26 14:25:24 发布

阅读量1.3w

点赞数

分类专栏： Linux 文章标签： Chrome Headless CentOS7

本文链接：https://blog.csdn.net/hochenchong/article/details/80357504

版权

本文介绍了如何在CentOS7上利用Chrome的Headless模式将HTML转换为PDF，包括安装Chrome，解决中文乱码问题，以及转换过程中遇到的页眉页脚问题。通过调整Chrome的默认打印配置或使用Puppeteer、Selenium等工具，可以实现高质量的HTML到PDF的转换。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

使用 Chrome Headless 模式将 HTML 转 PDF

前言

最近遇到了个问题，需要将爬取到的某个网页转成 PDF 格式。在这其中尝试过不少方法，例如使用 IText，wkhtmltopdf 之类的方式。但是由于所获取的 HTML 页面的标签较多，以及有些标签并不完整，或者自闭合标签，样式等问题，从而导致无法成功转换。

也试过使用 HtmlCleaner 这个开源的 Java 语言的 HTML 文档解析器重新生成一个结构较好的 HTML 文档。从代码上来看，格式确实整洁了许多，不过页面的样子稍微变乱了点，而且仍然没有成功转换。

其它的解决思路，例如获取那个网页中的数据，用 Freemarker 重新生成一个符合要求的 HTML 文件啊。不过这样子工作量就比较大了。下次遇到其它 HTML 需要转 PDF 时则需要重新弄一次。不方便重用。

便开始继续换个思路，突然想到，要是能后台直接调用浏览器的打印功能就好了。如此一来，标签等问题就不是什么问题了，浏览器怎么渲染 HTML 页面，打印出来的效果就是如何，也就不用担心样式之类的问题了。

在搜索资料的过程之中，就遇到了本文的主角 —— Chrome 的 Headless 模式下打印 PDF。

Chrome Headless 模式

于我的理解是，无界面（GUI）的运行 Chrome 浏览器。在后台运行，优点在于占用资源少，不用打开图形界面即可，通过命令来操作 Chrome 的功能，例如截图，打印成 PDF 之类的。

理论上安装了 Chrome 浏览器就可以使用该模式。从资料查询来看，Mac 在 Chrome 59 版本及之后，Linux 于 Chrome 57 版本及之后，而 Windows 在 Chrome 60 版本及之后都可以使用该新特性。

不过我这里安装的是当前最新版本：Google Chrome 66.0.3359.181

环境准备及使用

CentOS7 命令界面中安装 Google Chrome 浏览器

配置 yum 下载源：vi /etc/yum.repos.d/google-chrome.repo

在里面添加以下内容：

[google-chrome]
name=google-chrome
baseurl=http://dl.google.com/linux/chrome/rpm/stable/x86_64
enabled=

最低0.47元/天解锁文章