python的爬虫笔记(4)scrapy框架学习

本文介绍了Scrapy框架的基本组成部分,包括Engine、Scheduler、Downloader和Spiders。重点讲解了Spiders如何处理Response来获取信息,以及如何使用Item Pipeline进行数据存储或处理。通过实例展示了创建Scrapy项目、生成Spider、调用爬虫以及在Shell中进行网页元素定位的步骤。
摘要由CSDN通过智能技术生成

Scrapy Engine:多进程代码,提供并发的支持。已经实现好的,不需要修改。
Scheduler(调度器):存储以及调度(URL+函数)=Request。已经实现好的,不需要修改。
Downloader(下载器):跟request.get的部分封装到这里面。通过Request下载返回值(HTML,JSON),RESPONSE。已经实现好的,不需要修改。
Spiders(蜘蛛):获取到了Response之后,需要定位具体信息。需要自己写的。
item pipeline(项目管道):存储或者是急需处理具体信息。需要自己写的。

新建一个Scrapy的项目
scrapy startproject name
新建Spider
scrapy genspider jobbole jobbole.com
调用某个爬虫(这里 调用 jobbole)执行后会生成HTML文件
scrapy crawl jobbole

填想要获取的页面,进入shell 模式
scrapy shell http://python.jobbole.com/all-posts/
获得的是在这里插入图片描述
定位文章url
response.xpath(’//a[@class=“archive-title”]/@href’)在这里插入图片描述
获取到selector,如果想把data取出来
response.xpath(’//a[@class=“archive-title”]/@href’).extract()
定位文章标题
response.xpath(’/html/head/title/text()’)
在这里插入图片描述
获取data
response.xpath(’/html/head/title/text()’).extract()[0]
或者(建议用这个)
response.xpath(’/html/head/title/text()’).extract_first(‘没有标题’)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值