使用 Chrome Headless 模式将 HTML 转 PDF

使用 Chrome Headless 模式将 HTML 转 PDF

前言

最近遇到了个问题,需要将爬取到的某个网页转成 PDF 格式。在这其中尝试过不少方法,例如使用 IText,wkhtmltopdf 之类的方式。但是由于所获取的 HTML 页面的标签较多,以及有些标签并不完整,或者自闭合标签,样式等问题,从而导致无法成功转换。

也试过使用 HtmlCleaner 这个开源的 Java 语言的 HTML 文档解析器重新生成一个结构较好的 HTML 文档。从代码上来看,格式确实整洁了许多,不过页面的样子稍微变乱了点,而且仍然没有成功转换。

其它的解决思路,例如获取那个网页中的数据,用 Freemarker 重新生成一个符合要求的 HTML 文件啊。不过这样子工作量就比较大了。下次遇到其它 HTML 需要转 PDF 时则需要重新弄一次。不方便重用。

便开始继续换个思路,突然想到,要是能后台直接调用浏览器的打印功能就好了。如此一来,标签等问题就不是什么问题了,浏览器怎么渲染 HTML 页面,打印出来的效果就是如何,也就不用担心样式之类的问题了。

在搜索资料的过程之中,就遇到了本文的主角 —— Chrome 的 Headless 模式下打印 PDF。


Chrome Headless 模式

于我的理解是,无界面(GUI)的运行 Chrome 浏览器。在后台运行,优点在于占用资源少,不用打开图形界面即可,通过命令来操作 Chrome 的功能,例如截图,打印成 PDF 之类的。

理论上安装了 Chrome 浏览器就可以使用该模式。从资料查询来看,Mac 在 Chrome 59 版本及之后,Linux 于 Chrome 57 版本及之后,而 Windows 在 Chrome 60 版本及之后都可以使用该新特性。

不过我这里安装的是当前最新版本:Google Chrome 66.0.3359.181


环境准备及使用

CentOS7 命令界面中安装 Google Chrome 浏览器

配置 yum 下载源:vi /etc/yum.repos.d/google-chrome.repo

在里面添加以下内容:

[google-chrome]
name=google-chrome
baseurl=http://dl.google.com/linux/chrome/rpm/stable/x86_64
enabled=
  • 0
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
Chrome-headless是Google针对Chrome浏览器59版新增加的一种模式,可以在不打开UI界面的情况下使用Chrome浏览器,并保持与Chrome完全一致的运行效果。它使用方法与Selenium类似。 要使用Chrome-headless,首先需要安装ChromeDriver。可以通过以下步骤来安装ChromeDriver: 1. 下载ChromeDriver:使用wget命令下载ChromeDriver,例如:`wget https://chromedriver.storage.googleapis.com/2.40/chromedriver_linux64.zip` 2. 解压ChromeDriver:使用tar命令解压下载的ChromeDriver文件,例如:`tar xvf chromedriver_linux64.zip` 3. 设置权限:使用chmod命令给解压后的ChromeDriver设置可执行权限,例如:`chmod 755 chromedriver` 配置代码如下所示: ```python from selenium import webdriver from selenium.webdriver.chrome.options import Options chrome_options = Options() chrome_options.add_argument('--headless') chrome_options.add_argument('--disable‐gpu') # 设置Chrome浏览器文件路径 path = r'C:\Program Files (x86)\Google\Chrome\Application\chrome.exe' chrome_options.binary_location = path # 创建Chrome-headless浏览器实例 browser = webdriver.Chrome(chrome_options=chrome_options) ``` 通过以上配置代码,你就可以使用Chrome-headless模式进行你需要的操作了。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [Chrome-headless 使用](https://blog.csdn.net/grey_mouse/article/details/128243165)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [Chromeheadless安装与使用](https://blog.csdn.net/aWDac/article/details/80865754)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值