Scrapy框架丨Python爬虫基础入门系列(4)

最新推荐文章于 2024-08-05 20:06:05 发布

互联网阿星

最新推荐文章于 2024-08-05 20:06:05 发布

阅读量993

点赞数 2

文章标签： python 爬虫网络爬虫数据挖掘数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_68103523/article/details/124344490

版权

本文介绍了Scrapy爬虫框架，包括其库安装、框架结构、常用命令及操作步骤。Scrapy是一个用于数据抓取和提取的Python框架，具有快速、可配置的特点。文章详细讲解了Spider、Item Pipelines、Middleware的使用，并提供了创建和运行爬虫的步骤。

摘要由CSDN通过智能技术生成

提示：文末有福利！最新Python爬虫资料/学习指南>>戳我直达

文章目录

前言
Scrapy框架
操作步骤
总结

前言

Scrapy框架简述
Scrapy 是一个为了抓取网页数据、提取结构性数据而编写的应用框架，该框架是封装的，包含 request （异步调度和处理）、下载器（多线程的 Downloader）、解析器（selector）和 twisted（异步处理）等。对于网站的内容爬取，其速度非常快捷。

话不多说，开始学习
在这里插入图片描述

Scrapy框架

Scrapy库安装

打开cmd输入pip install scrapy

2、Scrapy爬虫框架结构

5+2结构、数据流

在这里插入图片描述

3、Scarpy爬虫框架解析

ENGINE:

控制所有模块之间的数据流。

根据条件触发事件。

不需要用户修改。

DOWNLOADER:

根据请求下载网页。

不需要修改。

SCHEDULER:

对所有爬取请求进行调度管理。

不需要用户修改

DOWNLOADER MIDDLEWARE

downloader和engine两个模块之间的中间键。

目的：实施Engine、Scheduler和Downloader之间进行用户可配置的控制。

功能：修改、丢弃、新增请求或响应。

用户可以编写代码修改。

Spider：

解析Downloader返回的响应（Response）。

产生爬取项（scraped item）。

产生额外的爬取请求（Request）。

需要用户编写配置代码。

Item Pipelines:

以流水线方式处理Spider产生的爬取项。

由一组操作顺序组成，类似流水线，每个操作是一个Item Pipeline类型。

可能操作包括：清理、检验和查重爬取项中的HTML数据、将数据存储到数据库。

需要用户编写配置代码。

Spider Middleware

Spider和Engine之间的中间键。

目的：对请求和爬取项的再处理。

功能：修改、丢弃、新增请求或爬取项。

用户可以编写配置代码。

4、Scrapy爬虫的常用命令

Scrapy命令行(cmd)

startproject

创建一个新工程。

scrapy startproject[dir]

genspider</

最低0.47元/天解锁文章

互联网阿星 CSDN认证博客专家 CSDN认证企业博客

码龄3年

38: 原创

39万+: 周排名

175万+: 总排名

4万+: 访问

: 等级

748: 积分

67: 粉丝

173: 获赞

105: 评论

416: 收藏

私信

关注

热门文章

最新评论

下篇丨月薪3w还能天天摸鱼？再整10个Python小游戏【附源码】
锐火箭: 博主厉害！
Python爬虫获取tieba公开数据丨Python基础实战系列(3)
邓邓邓呀: 我换一个url地址又可以了[code=python] import time from urllib import parse, request class TiebaSpider(object): # 初始化url属性 def __init__(self): # 定义变量前加self，代表在class 【TiebaSpider】里属于全局变量 self.url = 'https://tieba.baidu.com/f/search/res?isnew=1&kw=&{}' # 1.请求函数，得到页面，传统三步 def get_html(self, url): req = request.Request(url) res = request.urlopen(req) # windows会存在乱码问题，需要使用 gbk解码，并使用ignore忽略不能处理的字节 # linux不会存在上述问题，可以直接使用decode('utf-8')解码 html = res.read().decode('gbk', 'ignore') return html # 2.解析函数，此处代码暂时省略，还没介绍解析模块 def parse_html(self): pass # 3.保存文件函数 def save_html(self, filename, html): with open(filename, 'w') as f: f.write(html) # 4.入口函数 def run(self): name = input("请输入查询内容：") begin = int(input("请输入起始页数：")) stop = int(input("请输入终止页数：")) # 遍历页面数量，range不会取到结尾值，+ 1保证取到指定数字 for i in range(begin, stop + 1): [/code]
Python爬虫获取tieba公开数据丨Python基础实战系列(3)
邓邓邓呀: 报错了
Python爬虫获取tieba公开数据丨Python基础实战系列(3)
邓邓邓呀: UnicodeEncodeError: 'latin-1' codec can't encode characters in position 5-6: ordinal not in range(256)
9个爬虫基础实战汇总+4个专业爬虫练手站推荐
miluk161: 期待博主更多的爬虫实战

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。