Ajax加载数据爬虫

最新推荐文章于 2023-07-26 13:30:53 发布

AlienStar

最新推荐文章于 2023-07-26 13:30:53 发布

阅读量191

点赞数

本文链接：https://blog.csdn.net/guishengyx/article/details/116787393

版权

目标网页

https://spa1.scrape.center/

准备工作

设置日志等级
**设置日志等级**
设置robot规则
在这里插入图片描述
为了降低对网页的压力，设置下载延迟

更改默认请求头

新建需要的字段

开启管道

————————————————————
是Ajax请求获取数据
所以控制台勾选XHR筛选

查看Preview，找到需要的数据
在这里插入图片描述
和之前的步骤差不多，获取数据方式不同

    def parse(self, response):
        result = response.json()
        for a in result['results']:
            item = Spa1Item()
            item['title'] = a['name'] + a['alias']
            item['fraction'] = a['score']
            item['country'] = '、 '.join(a['regions'])
            item['time'] = a['minute']
            item['date'] = a['published_at']

此页面上没有导演的数据，所以还要yield请求下一页面获取导演数据
点开随意一个电影
依旧是Ajax获取数据
在这里插入图片描述
分析网页url，可以看出此页面的url和作品的id有关

yield scrapy.Request(url=response.urljoin(f'/api/movie/{a["id"]}/'), 
                                 callback=self.parse_person, 
                                 meta={'item': item})

接着只要把directory的数据也存进item就行了

    def parse_person(self, response):
        result = response.json()
        item = response.meta['item']
        item['director'] = result['directors'][0]['name']
        print(item)
        yield item

运行代码得到数据
在这里插入图片描述

AlienStar

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Ajax加载数据爬虫

目标网页https://spa1.scrape.center/准备工作设置日志等级设置robot规则为了降低对网页的压力，设置下载延迟更改默认请求头新建需要的字段开启管道————————————————————是Ajax请求获取数据所以控制台勾选XHR筛选查看Preview，找到需要的数据和之前的步骤差不多，获取数据方式不同 def parse(self, response): result = response.json()
复制链接

扫一扫