Python爬虫编程思想（153）：使用Scrapy抓取数据，抓取多个Url

蒙娜丽宁

于 2022-06-28 17:34:24 发布

阅读量2.4k

点赞数

分类专栏： Python爬虫编程思想文章标签： python 爬虫 scrapy

本文链接：https://blog.csdn.net/nokiaguy/article/details/125506849

版权

Python爬虫编程思想专栏收录该内容

161 篇文章 49 订阅 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍如何使用Scrapy爬虫抓取多个Url。通过在start_urls中添加或从文本文件读取Url，可以实现对多个网页的抓取。示例代码展示了读取urls.txt文件内容并抓取其中所有Url对应页面的方法，输出页面的博文数量。

摘要由CSDN通过智能技术生成

在前面的案例中都是只抓取了一个Url对应的页面，但在实际应用中，通常需要抓取多个Url，在爬虫类的start_urls变量中添加多个Url，运行爬虫时就会抓取start_urls变量中所有的Url。下面的代码在start_urls变量中添加了2个Url，运行MultiUrlSpider爬虫后，就会抓取这两个Url对应的页面。

class MultiUrlSpider(scrapy.Spider):
    name = 'MultiUrlSpider'
    start_urls = [
       'https://www.jd.com',
       'https://www.taobao.com'        
    ]    
    ... ...

下面的例子通过一个文本文件（urls.txt）提供多个Url，并在爬虫类中读取urls.txt文件中的内容，然后将读取的多个Url存入start_urls变量中。最后会抓取urls.txt文件中所有的Url对应的页面，并输出页面的博文数（

了解本专栏