Scrapy 批量获取URL以及进一步拔取网页链接数据

最新推荐文章于 2024-03-15 10:24:12 发布

哈代的随想

最新推荐文章于 2024-03-15 10:24:12 发布

阅读量1.3w

点赞数

分类专栏：网络爬虫文章标签： Scrapy 爬虫数据文档 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Hardysong/article/details/74923242

版权

本文介绍如何使用Scrapy 1.4.0和Python 2.7进行批量URL获取及网页数据抓取。通过Scrapy Shell分析搜房网二手房数据，展示如何设置起始URL并利用Xpath提取目标链接，强调在处理链接时应使用Response.follow而非Response.Request。

摘要由CSDN通过智能技术生成

做网页爬虫，最经常碰到的问题就是需要一层一层的拔取网页上的链接和数据，网络上的方法大都是自己做一个URL的列表，然后逐个爬取。Scrapy官方文档给出了较好的解决方法，使用方便，同时效率也很高，代码简洁。

Scrapy版本：1.4.0

Python版本: 2.7

这里以爬取搜房网二手房数据为例进行说明：

（1）首先也是第一步，就是设置爬虫的域名和staru_url

    allowed_domains = ['esf.fang.com']
    start_urls = ['http://esf.fang.com/']

（2）分析网页结构，

比如我的目标是安装区域进行数据爬取，那我就要获取一组链接，而不是一个一个的获得，推介使用Scrapy Shell工具进行初步的网页解析。

Scrapy Shell 'http://esf.fang.com/'

用Xpath获取目标列表：

Region_list = response.xpath('//*

最低0.47元/天解锁文章

哈代的随想

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。