Python爬虫编程思想(153):使用Scrapy抓取数据,抓取多个Url

        在前面的案例中都是只抓取了一个Url对应的页面,但在实际应用中,通常需要抓取多个Url,在爬虫类的start_urls变量中添加多个Url,运行爬虫时就会抓取start_urls变量中所有的Url。下面的代码在start_urls变量中添加了2个Url,运行MultiUrlSpider爬虫后,就会抓取这两个Url对应的页面。

class MultiUrlSpider(scrapy.Spider):
    name = 'MultiUrlSpider'
    start_urls = [
       'https://www.jd.com',
       'https://www.taobao.com'        
    ]    
    ... ...

        下面的例子通过一个文本文件(urls.txt)提供多个Url,并在爬虫类中读取urls.txt文件中的内容,然后将读取的多个Url存入start_urls变量中。最后会抓取urls.txt文件中所有的Url对应的页面,并输出页面的博文数(本例提供的Url是geekori.com的博文列表页面,如果读者使用其他的Url,需要修改分析页面的逻辑代码)。

import scrapy
class MultiUrlSpider(scrapy.Spider):
    name = 'Mult
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值