scrapy用不同规则抓取多个网站（基于csv文件）以及向爬虫传递参数（参数可默认）

最新推荐文章于 2024-08-05 10:37:56 发布

bluespacezero

最新推荐文章于 2024-08-05 10:37:56 发布

阅读量8.3k

点赞数 3

分类专栏： scrapy 网络爬虫 Python

本文链接：https://blog.csdn.net/Q_AN1314/article/details/51085870

版权

本文介绍了如何使用Scrapy一个爬虫抓取多个网站，这些网站的区别仅在于XPath表达式。通过创建CSV文件存储URL和XPath，利用Python的csv模块读取数据。同时，讲解了如何向Scrapy爬虫传递参数，允许在命令行中通过选项指定不同的URL源文件，实现默认值与用户输入的灵活切换。

摘要由CSDN通过智能技术生成

大多数情况下每个网站对应一个爬虫，但是也有很多时候需要一个爬虫抓取多个网站，而它们之间的唯一区别只是XPath表达式不同。在这种情况下，对应每个网站编写一个爬虫有些大材小用，只需一个爬虫即可解决。

首先创建一个.csv文件，按照下图填写一些url和XPath表达式，保存为todo.csv并放到工程的目录（也就是scrapy.cfg文件所在的目录）。

这里写图片描述

Python有一个内建的库专门处理.csv文件，需引入import csv。用下面的代码：

$ pwd
/root/book/ch05/generic2
$ python
>>> import csv
>>> with open("todo.csv", "rU") as f:
        reader = csv.DictReader(f)
        for line in reader:

最低0.47元/天解锁文章

bluespacezero

关注

3
点赞
踩
18

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录