1、准备
1.1、准备你需要爬取的网站及其资源
1.2、准备开发环境
1.2.1、准备Python
1.2.2、准备Scrapy
2、编写代码
2.1、初始化Scrapy项目
使用一下命令创建一个Scrapy项目
scrapy startproject project_name
2.2、创建spider
2.2.1、创建spider
使用以下命令创建spider
scrapy genspider spider_name domain[https://xxx.com/]
2.2.2、编写获取单页面代码
2.2.2.1、scrapy shell 测试
1、使用scrapy shell进行页面爬取
1.1.命令
scrapy shell url
1.2.演示
2、对页面进行xpath提取资源
2.1.命令
response.xpath('experssion')
2.2.演示
2.3.注意
当xpath表达式和浏览器上一致,但还是无法获取时,需要使用 view(response) 打开scrapy爬取的页面进行解析,查看代码,再编写xpath表达式
3、编写代码
3.1.命令
3.2.演示
2.2.3、编写获取下一页页面代码
1、设置变量 next_base_url page_index page_max
2、编写代码
2.2.4、编写获取页面图片代码
2.3、编写items
2.4、编写pipelines
1、设置 setting
1.1. 设置图片保存路径
1.2. 关闭robots规则
1.3. 开启管道
2、撸码
2.5、debug项目
使用scrapy crawl spider 进行调试
2.6、运行项目
放开下一页限制,在使用scrapy crawl spider运行代码
3、总结
玩起还是不错的。