scrapy用不同规则抓取多个网站(基于csv文件)以及向爬虫传递参数(参数可默认)

本文介绍了如何使用Scrapy一个爬虫抓取多个网站,这些网站的区别仅在于XPath表达式。通过创建CSV文件存储URL和XPath,利用Python的csv模块读取数据。同时,讲解了如何向Scrapy爬虫传递参数,允许在命令行中通过选项指定不同的URL源文件,实现默认值与用户输入的灵活切换。
摘要由CSDN通过智能技术生成

大多数情况下每个网站对应一个爬虫,但是也有很多时候需要一个爬虫抓取多个网站,而它们之间的唯一区别只是XPath表达式不同。在这种情况下,对应每个网站编写一个爬虫有些大材小用,只需一个爬虫即可解决。

首先创建一个.csv文件 ,按照下图填写一些url和XPath表达式,保存为todo.csv并放到工程的目录(也就是scrapy.cfg文件所在的目录)。

这里写图片描述

Python有一个内建的库专门处理.csv文件,需引入import csv。用下面的代码:

$ pwd
/root/book/ch05/generic2
$ python
>>> import csv
>>> with open("todo.csv", "rU") as f:
        reader = csv.DictReader(f)
        for line in reader:
     
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值