偶然看到的,通过 Google 的 webcache 来获取站点快照
URL 示例:https://webcache.googleusercontent.com/search?q=cache:https://www.piie.com/
比如 piie 站点,正常浏览会触发 cloudflare 的质询。
通过 webcache 访问:https://webcache.googleusercontent.com/search?q=cache:https://www.piie.com/
可以选择有渲染的完整版本,或者文字版本,或者源码版本
站点内容
详情页对比,webcache 内容:
页面内容:
笔者测试了一些站点,像 piie.com、ecfr.eu、wsj.com之类都可通过这种方法获取 html 内容。
虽然快照有半天到一天的延迟,但相对于 Cloudflare 防护的繁琐,也不失为一种解决方法。
而对一些特定采集场景,使用 webcache 可能有出其不意的效果。
除了 google 的快照,一些网站也提供类似服务
比如 https://web.archive.org/
不过效果并没有 google 好,快照的延迟更高。
大家有其他方法可留言