Scrapy 批量获取URL以及进一步拔取网页链接数据

本文介绍如何使用Scrapy 1.4.0和Python 2.7进行批量URL获取及网页数据抓取。通过Scrapy Shell分析搜房网二手房数据,展示如何设置起始URL并利用Xpath提取目标链接,强调在处理链接时应使用Response.follow而非Response.Request。
摘要由CSDN通过智能技术生成

做网页爬虫,最经常碰到的问题就是需要一层一层的拔取网页上的链接和数据,网络上的方法大都是自己做一个URL的列表,然后逐个爬取。Scrapy官方文档给出了较好的解决方法,使用方便,同时效率也很高,代码简洁。

Scrapy版本:1.4.0

Python版本:   2.7

这里以爬取搜房网二手房数据为例进行说明:

(1)首先也是第一步,就是设置爬虫的域名和staru_url

    allowed_domains = ['esf.fang.com']
    start_urls = ['http://esf.fang.com/']

(2)分析网页结构,


比如我的目标是安装区域进行数据爬取,那我就要获取一组链接,而不是一个一个的获得,推介使用Scrapy Shell工具进行初步的网页解析。

Scrapy Shell 'http://esf.fang.com/'

用Xpath获取目标列表:

Region_list = response.xpath('//*
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值