Note:这篇文章是对第一次完整使用scrapy框架进行项目实践的详细记载。本次操作页面是当当网书籍界面,目标是爬取100页所有书籍的名称、图片,还有价格。
主要目的是对scrapy框架实战进行基础的认识,最详细的巩固scrapy框架使用流程。
目录
Note:这篇文章是对第一次完整使用scrapy框架进行项目实践的详细记载。本次操作页面是当当网书籍界面,目标是爬取100页所有书籍的名称、图片,还有价格。
流程图:


一、创建项目文件。
1.打开cmd,进入想创建项目文件的位置对项目进行创建。

创建爬虫的项目命令: scrapy startproject 项目的名字
注意:项目的名字不允许使用数字开头 也不能包含中文
scrapy startproject scrapy_dangdang_04
进入到创建的项目文件中:cd 项目的名字\项目的名字\spiders
cd scrapy_dangdang_04\scrapy_dangdang_04\spiders
创建爬虫文件:(要在spiders文件夹中去创建爬虫文件)
scrapy genspider 爬虫文件的名字 要爬取网页
scrapy genspider dang https://category.dangdang.com/cp01.01.07.00.00.00.html
一般情况下不需要添加http协议 因为start_urls的值是根据allowed_domains修改的,所以添加了http的话 那么start_urls需要我们手动修改(新版无这个要求)
项目创建完毕:(顺便了解一下项目结构)
scrapy项目的结构
项目名字
项目名字
spiders文件夹(存储的是爬虫文件)
init
自定义的爬虫文件 核心功能文件

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



