【Python网络爬虫基础】week04

最新推荐文章于 2022-08-23 15:39:58 发布

派大星的好朋友叮当猫

最新推荐文章于 2022-08-23 15:39:58 发布

阅读量153

点赞数

分类专栏：基础 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Brielle_Zhang/article/details/104376390

版权

python 同时被 2 个专栏收录

17 篇文章 1 订阅

订阅专栏

12 篇文章 0 订阅

订阅专栏

Scrapy爬虫框架

Scrapy的安装

pip install scrapy  #安装
scrapy -h  #测试效果

“5+2”结构：5个模块，2个中间件
用户需要编写的模块有：SPIDERS、ITEM PIPELINES

框架解析

Engine

Engine从Spider处获得爬取请求(Request)
Engine将爬取请求转发给Schedule，用于调度

Downloader

根据请求下载网页

SCHEDULE

对所有爬取请求进行调度管理

中间件：Downloader Middleware

目的：实施Engine、Schedule和Downloader之间进行用户可配置的控制
功能：修改、丢弃、新增请求或响应

Spider

解析Downloader返回的响应
产生爬取项
产生额外的爬取请求

Item Pipelines

以流水线方式处理Spider产生的爬取项
由一组操作顺序组成，类似流水线，每个操作是一个Item Pipeline类型
可能操作包括：清理、检验和查重爬取项中的HTML数据、将数据存储到数据库

中间件：Spider Middleware

目的：对请求和爬取项的再处理
功能：修改、丢弃、新增请求或爬取项

requests库和Scrapy爬虫的比较

requests	Scrapy
页面级爬虫	网站级爬虫
功能库	框架
并发性考虑不足，性能较差	并发性好，性能较高
重点在于页面下载	重点在于爬虫结构
定制灵活	一般定制灵活，深度定制困难
上手十分简单	入门稍难

Scrapy爬虫的常用命令

命令	说明	格式
startproject	创建一个新工程	scrapy startproject <name> [dir]
genspider	创建一个爬虫	scrapy genspider [options] <name> <domain>
settings	获得爬虫配置信息	scrapy settings [options]
crawl	运行一个爬虫	scrapy crawl <spider>
list	列出工程中所有爬虫	scrapy list
shell	启动URL调试命令行	scrapy shell [url]

Scrapy爬虫的第一个实例

步骤1：建立一个Scrapy爬虫工程

scrapy startproject python123demo

步骤2：在工程中产生一个Scrapy爬虫

scrapy genspider demo python123.io

步骤3：配置产生的spider爬虫
配置:(1)初始化URL地址 (2)获取页面后的解析方式

步骤4：运行爬虫，获取网页

scrapy crawl demo

yield关键字的使用

yield：生成器

包含yield语句的函数是一个生成器
生成器每次产生一个值（yield语句），函数被冻结，被唤醒后再产生一个值
生成器是一个不断产生值的函数

scripy爬虫的基本使用

步骤1：创建一个工程和Spider模板
步骤2：编写Spider
步骤3：编写Item Pipeline
步骤4：优化配置策略

数据类型
Request类
Response类
Item类

派大星的好朋友叮当猫

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

派大星的好朋友叮当猫 CSDN认证博客专家 CSDN认证企业博客

码龄6年

38: 原创

11万+: 周排名

217万+: 总排名

4万+: 访问

: 等级

642: 积分

13: 粉丝

19: 获赞

19: 评论

117: 收藏

私信

关注

热门文章

分类专栏

网络基础 2篇
小学生写日记 11篇
python 17篇
OpenStack 1篇
自动化运维 2篇
深度学习 2篇
Jupyter 1篇
基础 12篇
机器学习 3篇
yolo 1篇
爬虫 1篇

最新评论

tensorflow1.x版本(CPU) 安装
yeeanna: 为什么我会报这个错误2022-02-25 14:31:17.572473: W tensorflow/stream_executor/platform/default/dso_loader.cc:55] Could not load dynamic library 'cudart64_100.dll'; dlerror: cudart64_100.dll not found 2022-02-25 14:31:17.572832: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Ignore above cudart dlerror if you do not have a GPU set up on your machine.
【OSPF】RIP和OSPF对比
尘封追忆: 学习了
tensorflow1.x版本(CPU) 安装
派大星的好朋友叮当猫: 可以到这个网址上看看：https://pypi.tuna.tsinghua.edu.cn/simple/tensorflow/
tensorflow1.x版本(CPU) 安装
Wings32: 为什么现在又安装不了了呢
【阿里云】学生成长计划答题
zzzzzbin: 答题通过了没有自动续费

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。