#常用命令行
scrapy crawl xxxx#开始运行一个爬虫
scrapy check #检查爬虫是否有bug
scrapy list #返回项目里有哪些爬虫
scrapy shell url#返回网页的响应,可以进行交互式操作
scrapy view URL #访问网而后,可以查看网页访问结果,可以查看网页是否使用ajax加载
#常用选择方法
response.xpath('//title/text()').extract()#所有title标签下的文本
response.xpath('//div[@id="images"]').css('img::attr(src)')#两种方法嵌套选择
response.xpath('//a/@href')
respones.css('a::attr(href)')#两种方法等效
respsonse.xpath('//a[contains(@href,"image")]')
response.css('a[href*=image]::atrr(href)').re('name(.*?)')#可以用re表达式方法
response.css('title::text').extract()#css方法所有title标签下的文本
scrapy调试信息很多,如果觉得太多,可以在setttings.py中设置LOG_LEVEL等级来控制调试信息的输出。
有五种等级CRITICL ERROR WARNING DEBUG INFO
如果要输出日志可以 scrapy crawl xxx -s LOG_FILE=XXX.log