Scrapy学习

最新推荐文章于 2024-08-05 10:37:56 发布

Algorithm-Black-Boy

最新推荐文章于 2024-08-05 10:37:56 发布

阅读量547

点赞数

文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43905319/article/details/122395320

版权

scrapy入门

1.scrapy简介

Scrapy是一个基于Twisted的异步处理框架，是纯python实现的爬虫框架。使用少量代码就能快速抓取数据。
Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫等，最新版本又提供了web2.0爬虫的支持。

2.Scrapy框架及功能

2.1 框架图

在这里插入图片描述

2.2 各部分功能

名称	功能
Scrapy Engine（Scrapy引擎）	Scrapy引擎是框架的核心，负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等
Spiders(爬虫)	负责处理引擎发来的所有Response，从中提取数据，提取URl,并提交给引擎
Scheduler(调度器)	负责接受引擎发送过来的Request请求
Downloader(下载器)	负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理。
Item Pipeline(项目管道)	负责引擎传来的数据，并进行后期处理（数据分析，数据存储等）

3.Scrapy安装

3.1安装命令

windows下：

	pip install Scrapy

在这里插入图片描述
检测是否安装成功：

scrapy startProject 项目名

在这里插入图片描述

You can start your first spider with:
第一步： cd myspider
第二步：scrapy genspider example（爬虫名） example.com（你要爬取的网站）

在这里插入图片描述
网站用xxxx代替

编写完代码后：执行爬虫

scrapy crawl 爬虫名

Algorithm-Black-Boy

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Algorithm-Black-Boy CSDN认证博客专家 CSDN认证企业博客

码龄6年

2: 原创

45万+: 周排名

133万+: 总排名

2737: 访问

: 等级

22: 积分

3: 粉丝

1: 获赞

1: 评论

14: 收藏

私信

关注

热门文章

最新评论

利用selenium爬取艺恩年度票房
CSDN-Ada助手: 非常感谢CSDN博主分享这篇关于利用selenium爬取艺恩年度票房的博客。我觉得这篇博客非常实用，对于想要学习数据爬取技术的读者来说，是非常好的学习资料。下一篇博客可以继续深入探讨selenium的应用，例如可以写一篇关于selenium如何模拟登录网站的技术文章，相信会有更多读者受益于此。为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
利用selenium爬取艺恩年度票房
Mr_wangl: ss1[j*8+1]是什么意思啊

大家在看

最新文章

利用selenium爬取艺恩年度票房

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。