Python爬虫——当当网玄幻书籍信息的爬取

Note:这篇文章是对第一次完整使用scrapy框架进行项目实践的详细记载。本次操作页面是当当网书籍界面,目标是爬取100页所有书籍的名称、图片,还有价格。

主要目的是对scrapy框架实战进行基础的认识,最详细的巩固scrapy框架使用流程。

目录

Note:这篇文章是对第一次完整使用scrapy框架进行项目实践的详细记载。本次操作页面是当当网书籍界面,目标是爬取100页所有书籍的名称、图片,还有价格。

流程图:

一、创建项目文件。

二、获取所需要的书籍名称、图片和价格的xpath路径。

三、管道封装(保存数据)

四、多条管道下载数据

五、多页下载。

六、cmd运行程序


流程图:

一、创建项目文件。

1.打开cmd,进入想创建项目文件的位置对项目进行创建。

创建爬虫的项目命令: scrapy startproject 项目的名字
注意:项目的名字不允许使用数字开头 也不能包含中文

scrapy startproject scrapy_dangdang_04

进入到创建的项目文件中:cd 项目的名字\项目的名字\spiders

cd  scrapy_dangdang_04\scrapy_dangdang_04\spiders

创建爬虫文件:(要在spiders文件夹中去创建爬虫文件)
scrapy genspider 爬虫文件的名字 要爬取网页

scrapy genspider dang https://category.dangdang.com/cp01.01.07.00.00.00.html

一般情况下不需要添加http协议 因为start_urls的值是根据allowed_domains修改的,所以添加了http的话 那么start_urls需要我们手动修改(新版无这个要求)

项目创建完毕:(顺便了解一下项目结构)

scrapy项目的结构
        项目名字
            项目名字
                spiders文件夹(存储的是爬虫文件)
                    init
                    自定义的爬虫文件        核心功能文件
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值