与以前写的爬取服务器图片的思路大致相同【爬取服务器】,但这里提供了一个新的方法。
在前面的方法中,通过分析有规律的URL,每次循环构造一次新的网址,使用urllib.request.urlopen对新的URL进行请求操作。
在本文章中,基于Scrapy的Basic框架,使用scrapy.http.Request,向新的URL发送Request请求。
目标
获取hellobi.com的所有课程信息(课程名,链接,学习人数)
声明用到的容器 item.py
import scrapy
class FirstscrapyItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
title = scrapy.Field()
link = scrapy.Field()
stu = scrapy.Field()
pass
对容器内数据的处理 pipeline.py
from itemadapter import ItemAdapter
class ForscrapyPipeline:
def __init__(self): # 类的初始化方法
self.file = open("D:/Python/project/firstScreapy/forScrapy/result/1.text","a")
# 打开文件&

本文介绍了一种使用Scrapy框架,并结合for循环来实现自动爬虫的方法,不同于传统通过分析URL直接请求的方式。目标是抓取hellobi.com上的所有课程信息,包括课程名、链接和学习人数。在项目中,定义了数据容器item.py,处理流程pipeline.py,以及主要的爬虫逻辑autoForSpider.py。
最低0.47元/天 解锁文章
64万+

被折叠的 条评论
为什么被折叠?



