scrapy爬虫第一阶段——爬取多级url

本文记录了一个使用Scrapy爬虫抓取多级URL的过程,以获取一组pm2.5数据。爬虫从指定的start_urls开始,通过递归调用parse方法解析各级页面,提取所需信息并生成新的请求。示例代码展示了如何处理每个城市的URL,并将请求传递给后续解析函数。
摘要由CSDN通过智能技术生成

实验需要爬取一族pm2.5数据,纠结了几天爬虫,总算取得阶段性胜利,至少够项目用了


总结一下思想,就是首先设一个start url作为入口,爬到需要的url后将其链接传递到下一级parse,以此类推


原理再研究,会用先:

class DmozSpider(scrapy.spiders.Spider):
    name = "dmoz0" //爬虫名称,在每次调用爬虫时需要
    allowed_domains = ["www.tianqihoubao.com"] //注意这里非常重要,它定义整个搜索的范围,既往下的任何搜索都在这个域名的范围内,注:不是链接!
    start_urls = [
        "http://www.tianqihoubao.com/aqi/"
    ]            //这一部分设定起始url

    def parse(self, response):   //scrapy框架默认传入parse
        sel = Selector(response)
        sites = sel.xpath('//dl')
        url = "http://www.tianqihoubao.com"
        items = []
        for site in sites:
            provence = site.xpath('dt/b/text()').extract()
            print(provence)
            cit

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值