Go使用chromedp库操作headless-chrome爬取"JS画出来的"网站

最新推荐文章于 2025-09-15 15:15:33 发布

原创

最新推荐文章于 2025-09-15 15:15:33 发布 · 3.9k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#go #爬虫

随着Vue、Angular等前端框架的普及，爬取JS生成的SPA网站需要借助全功能浏览器。本文介绍了如何使用Go的chromedp库通过远程调试协议操作无头Chrome，实现高效爬取并模拟用户操作，包括设置自定义UA、禁用图片加载以及处理超时等关键步骤。

随着类似Vue、Angular这类通过JS将web页面"画"出来的前端框架的流行，爬取网页不再像以前那样随便发个GET请求，解析HTML就能搞定了。对于使用这类框架制作的SPA(Single Page Web Application)网站来说，必须使用一个全功能浏览器将JS脚本执行一遍才能获得想要的数据，除此之外别无他法。这里我们介绍如何使用Go语言的chromedp库来操作headless-chrome模拟浏览器操作，然后抓取网页数据的方案。

"无头"Chrome与远程调式协议

所谓headless-chrome，是Chrome浏览器的无GUI的命令行版浏览器。虽然没有UI，但是功能上跟我们日常使用的Chrome是没有任何区别的。从Chrome的59版本开始，无头浏览器就已经在安装Chrome的时候自动装好了。例如在MacOS上，我们可以直接通过终端调用chrome将HTML代码直接输出到控制台：

/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome --headless --disable-gpu --dump-dom https://www.sogou.com

有了这东西以后其实就能做很多事了，如果你只是想爬取JS生成的网页内容，通过shell脚本，或者其他任何编程语言，都可以使用这种方式获取到完整的html，然后再进一步解析获取数。但是如果你想模拟一下用户的操作，比如表单提交、截图等操作，这就不好办了。这就需要chrome能够提供一种远程交互协议, 然后允许各编程语言通过次协议进行通讯，这就是远程调试协议Remote Debugging Protocol。

幸运的是我们并不需要学习协议的具体内容，Go有一个chromedp第三方库，允许我们以更简单的编程的方式通过远程调试协议操作Chrome，github地址：https://github.com/chromedp/chromedp

使用方法和注意事项

现在网上很多例子都是只爬取一个页面的例子，然而实际中我们经常需要按一定规则爬取整个网站，这时候就涉及到Chrome实例的复用问题，总不能跟其他博客说的那样每爬取一个网页都要销毁、打开Chrome吧，效率太低了。

在爬取之前，我们需要做一些重要的设置，比如要自定义User-Agent，因为默认情况下headless-chrome会很实在的在UA中标记出来自己是headless的，这样就有可能被目标网站拒绝。其次是要禁用图片加载，因为通过测试发现，如果网页中有动态GIF, chromedp会卡住，原因未知。禁止图片加载即可解决问题。设置的方式如下：

	options := []chromedp.ExecAllocatorOption{
   
   
		chromedp.

最低0.47元/天解锁文章