Scrapy 分页爬取

最新推荐文章于 2024-08-03 19:27:22 发布

while True: pass

最新推荐文章于 2024-08-03 19:27:22 发布

阅读量789

点赞数

分类专栏： Scrapy 文章标签：爬虫 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41311176/article/details/120783086

版权

Scrapy 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

import scrapy
from testSpider.items import TestspiderItem


class MeinvSpider(scrapy.Spider):
    name = 'meinv'
    allowed_domains = ['www.3gbizhi.com']
    start_urls = ['http://www.3gbizhi.com/meinv/']
    page = 2
    page_url = 'https://www.3gbizhi.com/meinv/index_%d.html'

    def parse(self, response, **kwargs):
        ul = response.xpath('/html/body/div[4]/ul/li | /html/body/div[5]/ul/li')
        for div in ul:
            name = div.xpath('./a/div[2]/text()').extract_first()
            item = TestspiderItem()
            item['file_name'] = name
            yield item

        if self.page <= 5:
            new_url = self.page_url % self.page
            self.page += 1
            # 在解析过程中产生新的url，需要对新的url再次发起请求时，yield 手动调用scrapy.Request方法对象，
            yield scrapy.Request(url=new_url, callback=self.parse)

总结：两个地方会用到item
第一用yield 返回将item返回给管道
第二用yield手动发起Requets请求或者是FormRequests请求，即封装新的url。

while True: pass

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Scrapy 分页爬取

import scrapyfrom testSpider.items import TestspiderItemclass MeinvSpider(scrapy.Spider): name = 'meinv' allowed_domains = ['www.3gbizhi.com'] start_urls = ['http://www.3gbizhi.com/meinv/'] page = 2 page_url = 'https://www.3gbizhi.c
复制链接

扫一扫

专栏目录

while True: pass CSDN认证博客专家 CSDN认证企业博客

码龄7年

22: 原创

21万+: 周排名

121万+: 总排名

1万+: 访问

: 等级

257: 积分

3: 粉丝

11: 获赞

5: 评论

38: 收藏

私信

关注

热门文章

分类专栏

Docker 2篇
celery 1篇
Django 3篇
SQL 1篇
MySQL 1篇
爬虫 1篇
Python 2篇
Scrapy 3篇
queryset

最新评论

Docker 搭建 Gitlab 服务器（修改端口）
weixin_42513015: external_url 配置的是容器的端口，按博主的配置，-p 8080:80，external_url 无需配置端口。不过建议内外端口一致，比如 8090:8090，不然 clone url 会有问题。
Docker 搭建 Gitlab 服务器（修改端口）
钢铁慈猫: external_url的ip地址后面加端口后就访问不了页面了。博主知道这种情况么。
Django使用 django-celery-beat动态添加定时任务的方法
CSDN-Ada助手: 恭喜您写了第19篇博客！标题看起来很吸引人，关于Django使用django-celery-beat动态添加定时任务的方法。这个主题很实用，我相信很多人都会对此感兴趣。在您的博客中，您似乎给出了一种非常有用的解决方案。我想了解更多关于这个方法的细节，以及您是如何发现并掌握这个技巧的。我也很期待您在未来的博客中分享更多关于Django和其他相关技术的经验和教程。或许您可以探索一些高级的Django特性，或者分享一些实战经验，这样读者们可以更深入地了解如何在实际项目中应用这些技术。再次恭喜您的创作，期待您未来更多精彩的博客！
Celery的使用-Python
北风之神c: 写得赞，博主用心了，但主要还是celery太难用了。 celery对目录层级文件名称格式要求太高，只适合规划新的项目，对不规则文件夹套用难度高。所以新手使用celery很仔细的建立文件夹名字、文件夹层级、python文件名字，所以网上的celery博客教程虽然很多，但是并不能学会使用，因为要运行起来需要以下6个方面都掌握好，博客文字很难表达清楚或者没有写全面以下6个方面。 celery消费任务不执行或者报错NotRegistered，与很多方面有关系，如果要别人排错，至少要发以下6方面的截图，因为与一下6点关系很大。 1) 整个项目目录结构,celery的目录结构和任务函数位置，有很大影响 2) @task入参 ,用户有没有主动设置装饰器的入参 name,设置了和没设置有很大不同，建议主动设置这个名字对函数名字和所处位置依赖减小 3) celery的配置，task_queues(在3.xx叫 CELERY_QUEUES )和task_routes (在3.xx叫 task_routes) 4) celery的配置 include （在3.xx叫 CELERY_INCLUDE）或者 imports (3.xx CELERY_IMPORTS) 或者 app.autodiscover_tasks的入参 5) cmd命令行启动参数 --queues= 的值 6) 用户在启动cmd命令行时候，用户所在的文件夹。在不规范的文件夹路径下，使用celery难度很高，一般教程都没教。 [项目文件夹目录格式不规范下的celery使用演示](https://github.com/ydf0509/celery_demo) 。此国产分布式函数调度框架 https://function-scheduling-distributed-framework.readthedocs.io/zh_CN/latest/index.html ，从用法调用难度，用户所需代码量，超高并发性能，qps控频精确程度，支持的中间件类型，任务控制方式，稳定程度等19个方面全方位超过celery，任何方面都是有过之而无不及。发布性能提高1000%，消费性能提高2000%
Django QuerySet浅析
LaoYuanPython: 欢迎博主在CSDN安家！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。