Python 爬虫，scrapy，提取url地址，并发送下一个url请求，scrapy.Request对象

最新推荐文章于 2021-10-13 22:19:03 发布

houyanhua1

最新推荐文章于 2021-10-13 22:19:03 发布

阅读量9k

点赞数

分类专栏： Python+ 文章标签： Python 爬虫 scrapy

本文链接：https://blog.csdn.net/houyanhua1/article/details/86541360

版权

本文介绍如何在Python的Scrapy框架中编写爬虫，通过XPath等方法从网页中提取URL，并利用scrapy.Request对象发起对下一个URL的请求。

摘要由CSDN通过智能技术生成

项目名/spiders/爬虫名.py（爬虫，xpath等提取数据和url，发送下一个url请求）：

# -*- coding: utf-8 -*-
import scrapy
from tencent.items import TencentItem

class HrSpider(scrapy.Spider):
    name = 'hr'  # 爬虫名
    allowed_domains = ['tencent.com']
    start_urls = ['http://hr.tencent.com/position.php']

    def parse(self, response):
        tr_list = response.xpath("//table[@class='tablelist']/tr")[1:-1]
        for tr in tr_list:
            item = TencentItem()
            item["title"] = tr.xpath("./td[1]/a/text()").extract_first()
            item["position"] = tr.xpath("./td[2]/text()").extract_first()
            item["publish_date"] = tr.xpath("./td[5]/text()").extract_first()
            yield item  # 将爬取的数据交给pipelines

        # 提取下一页的url地址
        next_url =