scrapy处理需要跟进的url

最新推荐文章于 2022-07-11 07:38:00 发布

anyangyu0343

最新推荐文章于 2022-07-11 07:38:00 发布

阅读量330

点赞数 1

文章标签： python 爬虫

原文链接：http://www.cnblogs.com/lgh344902118/p/8565757.html

版权

在做scrapy爬虫的时候经常会遇到需要跟进url的情况，网站a有许多url，但是我们需要跟进这些url，进一步获取这些url中的详细内容。

简单的说就是要先解析出所有需要的url，然后跟进这些url

那么现在来说说怎么做

scrapy中有个Request专门处理跟进的url

from scrapy.http import Request

在处理函数parse中进行跟进

    def parse(self, response):
        hxs = Selector(response)
        urls = hxs.xpath('//div[@class="li-info"]//h3//a/@href').extract()
        for url in urls:
            yield Request(url, callback=self.get_community)

callback中的函数才是重点，对跟进的url再次发送请求，

    def get_community(self, response):
        hxs = Selector(response)
        item = CommunityItem()
        yield item

这个函数用来进行对跟进的url进行解析，以便得到我们想要的数据

这里只是跟进了一次url，如果需要跟进多次url，可以多次使用Request，多个回调函数处理。

转载于:https://www.cnblogs.com/lgh344902118/p/8565757.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

anyangyu0343

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Scrapy研究探索（六）——自动爬取网页之II（CrawlSpider）

younghz

06-26

4万+

一.目的。在教程（二）（http://blog.csdn.net/u012150179/article/details/32911511）中使用基于Spider实现了自己的w3cschool_spider，并在items.py中定义了数据结构，在pipelines.py中实现获得数据的过滤以及保存。但是以上述方法只能爬取start_url列表中的网页，而网络爬虫如google等搜索引擎

Scrapy爬虫框架

最新发布

Java/Python大数据成长之路

10-09

2161

Scrapy是一个基于Python的开源网络爬虫框架，用于从网页中提取数据。它提供了一套高效、灵活和可扩展的工具，可以帮助开发者快速构建和部署爬虫程序Scrapy是一个由Python语言开发的适用爬取网站数据、提取结构性数据的Web应用程序框架。主要用于数据挖掘、信息处理、数据存储和自动化测试等。通过Scrapy框架实现一个爬虫，只需要少量的代码，就能够快速的网络抓取Scrapy基于Twisted，Twisted是一个异步网络框架，主要用于提高爬虫的下载速度。

参与评论您还未登录，请先登录后发表或查看评论

Scrapy不断的抓取下一个链接如何实现

DavenCheung

03-31

1640

http://davenzhang.com/scrapy_crawl_resultlink.htm

scrapy 用爬虫规则指定爬行轨迹自动抓取

pardon110的博客

05-29

793

需求给定爬虫起始地址，路径，获得目标页的指定内容约定路径起点首页 --> (历史)频道 --> 小说info页–> 章节详情起始页 --> 作者中心 --> 大神之光路径中的每个页面html结构都不同分析通用爬虫，写规则，用链接抽取器为便于演示，只展示起点与终点页指定内容，中间路径以爬虫引擎debug信息展示准备 scrapy 1.6 Sel...

scapy递归爬

VergiL Wang的专栏

07-20

314

前面介绍了Scrapy如何实现一个最简单的爬虫，但是这个Demo里只是对一个页面进行了抓取。在实际应用中，爬虫一个重要功能是”发现新页面”，然后递归的让爬取操作进行下去。发现新页面的方法很简单，我们首先定义一个爬虫的入口URL地址，比如《Scrapy入门教程》中的start_urls，爬虫首先将这个页面的内容抓取之后，解析其内容，将所有的链接地址提取出来。这个提取的过程是很简单的，通过一...

通过scrapy命令行工具做网页分析

weixin_46913162的博客

04-25

1288

前言： Scrapy是由python语言开发的一个快速、高效的web抓取框架，用于抓取web站点并从页面中提取结构化的数据，只需要实现少量的代码，就能够快速的抓取。它最吸引人的地方在于它是一个爬虫框架，任何人都可以根据自己的需求方便的修改。scrapy的创建和执行都需要在命令行下运行，也就意味着scrapy里面会有很多的命令需要在命令行下才能运行，今天我们就用过这些好用的命令，来对网址进行一下网页分析。命令：scrapy view >>> scrapy view url地址这个

Scrapy框架的使用之Scrapy通用爬虫

01-27

`link_extractor`通常使用`LxmlLinkExtractor`，它可以按照正则表达式、域名、XPath或CSS选择器来筛选需要跟进的链接。`allow`和`deny`用于定义允许和禁止的链接模式，而`allow_domains`和`deny_domains`则控制了...

scrapy爬取cosplay图片并保存到本地指定文件夹

12-21

规则定义了如何从页面中提取链接并决定是否需要跟进。例如： ```python from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule from Cosplay.items import ...

Python利用Scrapy框架爬取豆瓣电影示例

09-18

在解析过程中，如果发现有新的需要爬取的url连接，Spiders会将链接交给引擎存入调度器，以便后续的请求和数据爬取。 5. 管道（Item Pipeline）：爬虫会将页面中的数据通过引擎交给管道进行进一步处理，如过滤、验证...

scrapy 教程

墨鱼菜鸡

07-11

369

------------------------------------------------------------------------------------------ scrapy中文文档和 scrapy 英文文档参照看。因为中文文档比较老，英文文档是最新的。 scrapy 英文文档：https://doc.scrapy.org/en/...

python爬虫之scrapy 框架学习复习整理二--scrapy.Request（自己提取url再发送请求）

zhaojiafu的博客

10-09

8178

文章目录说明：我的配置：目标网站：今天爬虫1、创建项目+初始化爬虫文件：2、在setting中配置3、修改items.py：4、修改爬虫程序：spiders/scrapyd.py①、scrapy.Request()②、直接上我的代码：5、管道处理（一般都在这里进行数据清洗和数据储存操作）：pipelines.py1、测试spider是什么：2、保存到MongoDB数据库：说明：今天主要学习一下...

爬虫系列：Scrapy的三种解析方式你都清楚吗？

weixin_54667422的博客

06-05

1671

目录🍉Scrapy的三种数据解析方式🌵xpath选择器🌵CSS选择器🌵正则匹配 🍉dome🌴spider.py🌴itmes.py🌴pipeline.py 🍉结束 Scrapy 提供了自己的数据提取方法，即 Selector（选择器）。Selector 是基于 lxml 来构建的，支持 XPath 选择器、CSS 选择器以及正则表达式，功能全面，解析速度和准确度非常高。测试用例构建一个对象提取a节点提取 a 节点内包含的 img 节点 ...

scrapy爬虫框架实现url跟进爬取页面详情

fallwind_of_july的博客

07-30

4966

本篇博文将介绍如何搭建爬虫项目实现目录页的数据爬取，并对每个目录标题下的url进行跟进，进入该url爬取该页面的详情内容。最后把结果保存为本地json文件或者csv文件。详细的项目搭建操作已经在前面博文中提及了，可以参考： https://blog.csdn.net/fallwind_of_july/article/details/97246577 文章非常适合有入门基础的小伙伴们一起学习...

Scrapy 批量获取URL以及进一步拔取网页链接数据

热门推荐

Hardysong的博客

07-10

1万+

做网页爬虫，最经常碰到的问题就是需要一层一层的拔取网页上的链接和数据，网络上的方法大都是自己做一个URL的列表，然后逐个爬取。Scrapy官方文档给出了较好的解决方法，使用方便，同时效率也很高，代码简洁。 Scrapy版本：1.4.0 Python版本: 2.7 这里以爬取搜房网二手房数据为例进行说明：（1）首先也是第一步，就是设置爬虫的域名和staru_url allow

scrapy实现增量式爬取

qq_35488769的博客

11-22

1万+

实现爬虫的增量式爬取有两种方法，一是在获得页面解析的内容后判断该内容是否已经被爬取过，二是在发送请求之前判断要被请求的url是否已经被爬取过，前一种方法可以感知每个页面的内容是否发生变化，能获取页面新增或者变化的内容，但是由于要对每个url发送请求，所以速度比较慢，而对网站服务器的压力也比较大，后一种无法获得页面变化的内容，但是因为不用对已经爬取过的url发送请求，所以对服务器压力比较小，速度比较快

Python 爬虫，scrapy，提取url地址，并发送下一个url请求，scrapy.Request对象

houyanhua1的专栏

01-18

9045

项目名/spiders/爬虫名.py（爬虫，xpath等提取数据和url，发送下一个url请求）： # -*- coding: utf-8 -*- import scrapy from tencent.items import TencentItem class HrSpider(scrapy.Spider): name = 'hr' # 爬虫名 allowed_do...

python爬虫遇到的坑3——关于scrapy中的URL

qq_43654105的博客

02-27

843

第一个坑我们在使用scrapy的时候都要先创建项目是吧这个就不多说的。基本的目录结构就是这样，懂的都懂，也不多做解释了：我就是在这里遇到的坑。这里面有个pipelines的py文件：

Scrapy框架CrawlSpiders全站爬取详解

在这个例子中，规则表示只跟进URL路径中包含`/page/\d+/`的链接，并调用`parse_item`方法处理这些页面。 CrawlSpiders使得Scrapy更适合大规模、结构化的网站爬取，通过定义规则，可以自动化处理链接跟踪和数据解析...