scrapy爬虫第一阶段——爬取多级url

最新推荐文章于 2023-07-15 20:13:37 发布

aliceDingYM

最新推荐文章于 2023-07-15 20:13:37 发布

阅读量1w

点赞数

分类专栏： scrapy

本文链接：https://blog.csdn.net/dym755833564/article/details/54358904

版权

本文记录了一个使用Scrapy爬虫抓取多级URL的过程，以获取一组pm2.5数据。爬虫从指定的start_urls开始，通过递归调用parse方法解析各级页面，提取所需信息并生成新的请求。示例代码展示了如何处理每个城市的URL，并将请求传递给后续解析函数。

摘要由CSDN通过智能技术生成

实验需要爬取一族pm2.5数据，纠结了几天爬虫，总算取得阶段性胜利，至少够项目用了

总结一下思想，就是首先设一个start url作为入口，爬到需要的url后将其链接传递到下一级parse，以此类推

原理再研究，会用先：

class DmozSpider(scrapy.spiders.Spider):
    name = "dmoz0" //爬虫名称，在每次调用爬虫时需要
    allowed_domains = ["www.tianqihoubao.com"] //注意这里非常重要，它定义整个搜索的范围，既往下的任何搜索都在这个域名的范围内，注：不是链接！
    start_urls = [
        "http://www.tianqihoubao.com/aqi/"
    ]            //这一部分设定起始url

    def parse(self, response):   //scrapy框架默认传入parse
       sel = Selector(response)
       sites = sel.xpath('//dl')
       url = "http://www.tianqihoubao.com"
       items = []
       for site in sites:
           provence = site.xpath('dt/b/text()').extract()
           print(provence)
           cit