【python】【爬虫】For循环实现Scrapy自动爬虫

本文介绍了一种使用Scrapy框架,并结合for循环来实现自动爬虫的方法,不同于传统通过分析URL直接请求的方式。目标是抓取hellobi.com上的所有课程信息,包括课程名、链接和学习人数。在项目中,定义了数据容器item.py,处理流程pipeline.py,以及主要的爬虫逻辑autoForSpider.py。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

与以前写的爬取服务器图片的思路大致相同【爬取服务器】,但这里提供了一个新的方法。

在前面的方法中,通过分析有规律的URL,每次循环构造一次新的网址,使用urllib.request.urlopen对新的URL进行请求操作。

在本文章中,基于Scrapy的Basic框架,使用scrapy.http.Request,向新的URL发送Request请求。

目标

获取hellobi.com的所有课程信息(课程名,链接,学习人数)

声明用到的容器 item.py

import scrapy


class FirstscrapyItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = scrapy.Field()   
    link = scrapy.Field()   
    stu = scrapy.Field()
    pass

对容器内数据的处理 pipeline.py

from itemadapter import ItemAdapter


class ForscrapyPipeline:
    def __init__(self): # 类的初始化方法
        self.file = open("D:/Python/project/firstScreapy/forScrapy/result/1.text","a")
        # 打开文件&
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值