Splash抓取动态页面

最新推荐文章于 2022-12-07 18:33:55 发布

凤舞无夜

最新推荐文章于 2022-12-07 18:33:55 发布

阅读量192

点赞数

分类专栏： python爬虫文章标签： ubuntu

本文链接：https://blog.csdn.net/weixin_42912498/article/details/120904708

版权

python爬虫专栏收录该内容

10 篇文章 0 订阅

订阅专栏

这篇博客介绍了如何在Ubuntu 18.04上安装和运行Docker容器化的Splash服务。首先，通过命令行安装Docker，然后拉取Splash镜像，并启动容器。启动后，可以通过服务器IP访问Splash的验证页面。接着，提供了一个Python示例，展示如何使用Splash渲染JavaScript驱动的网页，并将渲染后的HTML保存到文件中。这个过程对于爬虫处理动态内容非常有用。

摘要由CSDN通过智能技术生成

一、安装

环境：Ubuntu18.04

1）安装docker

2）下拉splash镜像

sudo docker pull scrapinghub/splash

3) 启动

sudo docker run -p 8050:8050 scrapinghub/splash

4)访问http://服务器ip:8050/验证

二、基本使用

import requests


def splash_render(url):
    splash_url = "http://服务器ip:8050/render.html"

    args = {
        "url": url,
        "timeout": 10,
        "image": 0,
    }

    response = requests.get(splash_url, params=args)
    return response.text


if __name__ == '__main__':
    url = "http://quotes.toscrape.com/js/"
    html = splash_render(url)
    with open("test.html", "w", encoding="utf-8") as w:
        w.write(html)

凤舞无夜

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Splash抓取动态页面

一、安装环境：Ubuntu18.04 1）安装docker 2）下拉splash镜像sudo docker pull scrapinghub/splash 3) 启动sudo docker run -p 8050:8050 scrapinghub/splash 4)访问http://服务器ip:8050/验证二、基本使用import requestsdef splash_render...
复制链接

扫一扫

专栏目录