scrapy解析基本操作

本文介绍了使用Scrapy进行Web爬虫的基本操作,包括创建项目、设置参数和在spider.py文件中解析HTML。通过一个海贼王漫画在线阅读的例子,详细解释了如何利用Scrapy的xpath进行内容提取,如获取a标签及其span选择器的内容。
摘要由CSDN通过智能技术生成

scrapy一般的解析操作都存储在spider源文件当中,以海賊王漫畫_1036已更新_海賊王漫畫在線閱讀解析为例

第一步:创建项目及文件

python的scrapy工程的创建步骤_ragerabbitr的博客-CSDN博客

第二步:初始的参数调整

scrapy的初始化的一些设定_ragerabbitr的博客-CSDN博客

第三步:进入spider.py爬虫文件中

解释:所有的start_urls中的地址scrapy都会发送请求,然后返回的每个response用parse函数用来解析。scrapy可以直接用xpath解析,不用导入各种包了,方便很多。也可以用bs4和re但是要自己导入包,不过用xpath之后,bs4基本没怎么用过,re正则还是会用的,有时候匹配字符串用。

整体代码如下,解析的是漫画每个章节的标签:

import scrapy

class MangabzSpider(scrapy.S
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值