Scrapy爬虫开发步骤总结

本文总结了Scrapy爬虫的开发步骤,包括创建项目、生成爬虫文件、使用shell进行页面解析以及编码实现阶段的详细操作。通过scrapy startproject、genspider命令初始化项目,使用fetch和view函数处理Response对象,以及XPath和CSS语法解析数据。编码阶段涉及items、pipelines和Spider类的定制,实现数据封装、处理和爬取逻辑。
摘要由CSDN通过智能技术生成

准备阶段

注:项目需要的所有指令均在cmd终端窗口或者shell终端键入。

一、输入指令scrapy startproject project_name创建scrapy项目

此命令会在当前路径下创建一个指定的项目,并在项目文件目录中生成scrapy爬虫需要的各个py文件,包括items.py、piplines.py、settings.py等。

二、输入指令scrapy genspider spider_name http://example/com生成爬虫文件

此命令会在spider_name.py建立对应的Spider类并生成parse方法以及需要用到的常用变量(最常用的是response),之后便能在parse方法中编写代码

三、在终端命令窗口运行scrapy shell http://example.com命令。

此命令将得到网站对应的Response对象和Request对象并进入Python的执行环境。

此外该命令下还有几个常用的函数:

    fetch(req_or_url):用于下载页面,可传入一个Request对象或url字符串,调用后会更新变量request和response;

    view(response):该函数会打开爬虫下载的页面并在浏览器中显示;

四、经过第三步之后便可以使用其获得的Response对象进行页面数据的解析提取,用response.xpath(),或者response.css(),如前所述,我们可以使用fetch方法来获取新的页面的Response和Request对象。

在这里介绍XPath和CSS用法。

4.1 Xpath常用基本语法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值