python selenium wait整个页面全部加载完_scrapy动态加载爬虫

最新推荐文章于 2023-04-21 10:04:27 发布

weixin_39918248

最新推荐文章于 2023-04-21 10:04:27 发布

阅读量684

点赞数

文章标签： python selenium wait整个页面全部加载完

本文链接：https://blog.csdn.net/weixin_39918248/article/details/111607731

版权

本文介绍了如何应对动态加载的网页，通过Scrapy结合Selenium或Splash来抓取异步加载的内容。提到了当接口难以分析时，可以使用Splash服务，它支持Lua脚本控制渲染过程，提高效率。在Scrapy中使用Splash，可以使用`SplashRequest`替代普通请求，并通过`runjs`执行JavaScript滚动加载动态内容。

摘要由CSDN通过智能技术生成

上文分享了scrapy的基本用法，利用scrapy提供的xpath等分析方法，可以解决静态html数据的分析和获取。但要素信息不仅存在于静态html中，有可能js代码按需请求并在浏览器中解析从而动态生成要素，称为异步加载、动态加载等。由于大量元素按需加载，这种方法可以有效降低带宽的压力。

由于动态加载，爬虫http响应获取的结果并不包含全部信息，原因是有的元素是二次请求得到的。既然元素是经过二次请求，我们可以通过抓包分析，得到二次请求url的规律，发送二次请求从而解决动态加载问题。

# -*- coding: utf-8 -*-
from scrapy import Request
from scrapy.spiders import Spider#导入Spider类
from douban.items import DoubanItem  #导入Item类
import json
class MoviesSpider(Spider):
    name = 'movies'
    currentPage = 1#当前页，默认为1

    def start_requests(self):#获取初始请求
        url = "https://movie.douban.com/j/new_search_subjects?tags=电影&start=0"
        #生成请求对象
        yield Request(url)

    def parse(self, response):#数据解析
        item = DoubanItem()#生成DoubanItem对象
        #获取到json格式的数据
        json_text = response.text
        #使用json.loads解码json数据࿰

最低0.47元/天解锁文章

weixin_39918248

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python selenium wait整个页面全部加载完_scrapy动态加载爬虫

上文分享了scrapy的基本用法，利用scrapy提供的xpath等分析方法，可以解决静态html数据的分析和获取。但要素信息不仅存在于静态html中，有可能js代码按需请求并在浏览器中解析从而动态生成要素，称为异步加载、动态加载等。由于大量元素按需加载，这种方法可以有效降低带宽的压力。由于动态加载，爬虫http响应获取的结果并不包含全部信息，原因是有的元素是二次请求得到的。既然元素是经过二次请求...
复制链接

扫一扫