爬虫-Scrapy(八)Scrapy快读提取超链接

本文介绍了如何使用Scrapy快速提取和过滤网页中的超链接,特别是针对豆瓣图书首页的情况。首先明确了抓取图书详情页URL的需求,然后通过创建CrawlSpider,并结合LinkExtractor和Rule方法,设置正则表达式过滤无效链接,确保只抓取以'https://book.douban.com/subject/数字编号/'开头的图书详情页URL。
摘要由CSDN通过智能技术生成

前面写过用xpath 方式定位response对象中我们所需要的超链接地址,但如果超链接过多且位置规律性差就不太方便了,现在介绍一种快速提取和过滤超链接地址的方法

1.明确需求

查看豆瓣图书中首页中所有图书的超链接,先看首页长这样的
在这里插入图片描述

然后随便点击一本数,进入图书的详情页,是这样的

在这里插入图片描述

此时我们查看下浏览器的url地址,是https://book.douban.com/subject/35166573/?icn=index-latestbook-subject,这个就是我们要抓取的地址。

2. 创建爬虫

可以用scrapy genspider命令创建爬虫,创建后修改类的参数,将自动生成的继承 scrapy.Spider 改为 CrawlSpider,这样用自定义的方法接收request请求

from scrapy.spiders import CrawlSpider

class 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值