scrapy完整版重写start_requests方法 python requests 强大用法

最新推荐文章于 2023-04-19 10:16:00 发布

0x8g1T9E

最新推荐文章于 2023-04-19 10:16:00 发布

阅读量1w

点赞数 1

分类专栏： python Go Cloud computing

本文链接：https://blog.csdn.net/sirobot/article/details/105360486

版权

scrapy第一次请求方式的重写

# -*- coding: utf-8 -*-
import scrapy
from ..items import MaoyanItem


class MaoyanSpider(scrapy.Spider):
    name = 'maoyan3'
    allowed_domains = ['maoyan.com']

    #重写start_requests()方法，把所有URL地址都交给调度器
    def start_requests(self):
        # 把所有的URL地址统一扔给调度器入队列
        for offset in range(0, 91, 10):
            url = 'https://maoyan.com/board/4?offset={}'.format(offset)
            # 交给调度器
            yield scrapy.Request(
                url=url,
                callback=self.parse_html
            )

    def parse_html(self,response):
        #基准的xpath
        dd_list = response.xpath('//dl[@class="board-wrapper"]/dd')
        #for循环依次遍历
        for dd in dd_list:
            #创建对象'
            item = MaoyanItem()
            # 电影名称
            # 如果不添加extract_first()，会得到一堆列表里面的选择器，但是我们的目标是得到字符串
            item["name"] = dd.xpath("./a/@title").extract_first().strip()
            # 电影主演
            item["star"] = dd.xpath(".//p[@class='star']/text()").extract_first().strip()
            #上映时间
            item["time"] = dd.xpath('.//p[@class="releasetime"]/text()').extract_first().strip()

            #把爬取的数据交给管道文件pip

最低0.47元/天解锁文章

0x8g1T9E

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
scrapy完整版重写start_requests方法 python requests 强大用法

scrapy第一次请求方式的重写# -*- coding: utf-8 -*-import scrapyfrom ..items import MaoyanItemclass MaoyanSpider(scrapy.Spider): name = 'maoyan3' allowed_domains = ['maoyan.com'] #重写start_req...
复制链接

扫一扫