scrapy框架的用法

#常用命令行
scrapy crawl xxxx#开始运行一个爬虫
scrapy check #检查爬虫是否有bug
scrapy list #返回项目里有哪些爬虫
scrapy shell url#返回网页的响应,可以进行交互式操作
scrapy view URL #访问网而后,可以查看网页访问结果,可以查看网页是否使用ajax加载
#常用选择方法
response.xpath('//title/text()').extract()#所有title标签下的文本
response.xpath('//div[@id="images"]').css('img::attr(src)')#两种方法嵌套选择
response.xpath('//a/@href')
respones.css('a::attr(href)')#两种方法等效
respsonse.xpath('//a[contains(@href,"image")]')
response.css('a[href*=image]::atrr(href)').re('name(.*?)')#可以用re表达式方法
response.css('title::text').extract()#css方法所有title标签下的文本

scrapy调试信息很多,如果觉得太多,可以在setttings.py中设置LOG_LEVEL等级来控制调试信息的输出。
有五种等级CRITICL ERROR WARNING DEBUG INFO
如果要输出日志可以 scrapy crawl xxx -s LOG_FILE=XXX.log

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值