![](https://img-blog.csdnimg.cn/20210408091604128.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
深入浅出学习Scrapy框架
文章平均质量分 94
Scrapy 是一个为了抓取网页数据、提取结构性数据而编写的应用框架,其中包括request、下载器、解析器和twisted等等。对于网站的内容爬取,其速度非常快捷。通过该专栏,我们详细了解一下关于scrapy框架的每个细节。
Python@达人
人生苦短,唯有Python
展开
-
爬虫框架Scrapy(13)保存数据到数据库
文章目录保存数据到数据库(一)数据保存至 MySQL 数据库1. 安装 pymysql2. 创建数据库与表3. 实现 MySQLPipeline(二)数据保存至 MongoDB 数据库1. 安装 pymongo2. 实现 MongoDBPipeline(三)数据保存至 Redis 数据库1. 安装 redis2. 实现 RedisPipeline(四)项目实例——爬取360图片保存到数据库1. 将数据保存到 MySQL 数据库2. 将数据保存到 MongoDB 数据库3. 运行爬虫保存数据到数据库在之前原创 2021-04-28 18:19:48 · 1698 阅读 · 0 评论 -
爬虫框架Scrapy(12)爬取动态页面
文章目录爬取动态页面(一)Splash 渲染引擎1. render.html 端点2. execute 端点3. 常用属性与方法(1)Splash 对象的属性(2)Splash 对象的方法(二)安装 Scrapy-Scrapy1. 安装 splash 服务器2. 安装 Scrapy-Splash 库3. plash Lua 脚本(三)在 Scrapy 中使用 Splash1. 页面分析2. 新建项目3. 添加配置4. 编写爬虫(1)编写 quotes.py(2)修改 item.py(3)修改 pipelin原创 2021-04-12 14:36:33 · 4733 阅读 · 0 评论 -
爬虫框架Scrapy(11)模拟登录
文章目录模拟登录(一)网站登录实质(二)发送 Post 请求模拟登录1. 使用 FormRequest2. 实现登录 Spider(三)携带 Cookies 模拟登录1. 人工获取 Cookie 模拟登录(1)人工获取 Cookie(2)模拟登录知乎2. Browsercookie 库获取 Cookie 模拟登录(1)获取浏览器 Cookie(2)实现 BrowserCookiesMiddleware(3)模拟登录知乎模拟登录目前,大部分网站都具有用户登录功能,其中某些网站只有在用户登录后才能获得有价值原创 2021-04-12 14:29:45 · 2127 阅读 · 0 评论 -
爬虫框架Scrapy(10)下载文件与图片
文章目录下载文件与图片(一)FilesPipeline 和 ImagesPipeline1. FilesPipeline 使用说明2. ImagesPipeline 使用说明(二)项目实例:下载 matplotlib 例子源码文件1. 页面分析2. 编码实现(1)创建项目文件(2)启用 FilesPipeline(3)Item 中封装数据(4)编写 spider 内容(三)项目实例:下载360图片1. 页面分析2. 编码实现(1)新建项目(2)构造请求(3)提取信息(4)存储数据下载文件与图片在之前的章原创 2021-03-27 23:25:17 · 843 阅读 · 1 评论 -
爬虫框架Scrapy(9)使用 Exporter 导出数据
文章目录使用 Exporter 导出数据1. 指定数据导出方法(1)命令行参数指定数据导出方式(2)配置文件指定数据导出方式2. 添加数据导出格式使用 Exporter 导出数据在 Scrapy 中,负责导出数据的组件被称为 Exporter(导出器),Scrapy 内部实现了多个 Exporter,每个 Exporter 实现一种数据格式的导出,支持的数据格式如下(括号中为相应的 Exporter):JSON (JsonItemExporter)JSON lines (JsonLinesItem原创 2021-03-24 14:48:00 · 872 阅读 · 0 评论 -
爬虫框架Scrapy(8)使用 LinkExtractor 提取链接
文章目录使用 LinkExtractor 提取链接1. 提取链接的方法(1)使用Selector(2)使用LinkExtractor2. LinkExtractor 提取链接的规则(1)allow(2)deny(3)allow_domains(4)deny_domains(5)restrict_xpaths(6)restrict_css(7)tags(8)attrs(9)process_value使用 LinkExtractor 提取链接1. 提取链接的方法在爬取一个网站时,想要爬取的数据通常分布在多原创 2021-03-23 22:41:26 · 1772 阅读 · 1 评论 -
爬虫框架Scrapy(2)Selector的用法
文章目录Selector 的用法(一)直接使用 Selector(二)Scrapy Shell 模拟 Scrapy 请求(三)Xpath 选择器1. 基本用法2. 嵌套选择3. 以属性选择4. 获取节点内容5. 获取节点属性与文本(四)CSS 选择器1. 基本用法2. 嵌套选择3. 以属性选择4. 提取节点内容5. 提取节点文本与属性(五)正则表达式(六)三种方法组合使用Selector 的用法我们之前介绍了利用 'Xpath'、'Beautiful Soup'、'pyquery' 以及正则表达式来提取原创 2021-03-23 18:49:44 · 539 阅读 · 0 评论 -
爬虫框架Scrapy(7)Itme Pipeline 的用法
文章目录一. Itme Pipeline 的用法1. 实现 Item Pipeline2. 核心方法(1)process_item(item, spider)(2)open_spider(self, spider)(3)close_spider(spider)(4)from_crawler(cls, crawler)3. 如何使用 Item Pipeline 处理数据(1)数据去重(2)数据存储在 MongoDB二. 项目实战——以爬取 360 摄影美图1. 抓取分析2. 新建项目3. 构造请求4. 提取信原创 2021-03-23 18:59:23 · 712 阅读 · 0 评论 -
爬虫框架Scrapy(6)Spider Middleware 的用法
文章目录五. Spider Middleware 的用法1. 使用说明2. 核心方法五. Spider Middleware 的用法Spider Middleware 是介入到 Scrapy 的 Spider 处理机制的钩子框架。当 Downloader 生成 Response 之后,Response 会被发送给 Spider,在发送给 Spider 之前,Response 会首先经过 Spider Middleware 处理,当 Spider 处理生成 Item 和 Request 之后,Item 和原创 2021-03-23 18:56:16 · 683 阅读 · 0 评论 -
爬虫框架Scrapy(5)DownLoader Middleware 的用法
文章目录四. DownLoader Middleware 的用法1. 使用说明2. 核心方法3. 项目实战四. DownLoader Middleware 的用法Downloader Middleware 即下载中间件,它是处于 Scrapy 的 Request 和 Response 之间的处理模块。Scheduler 从队列中拿出一个 Request 发送给 Downloader 执行下载,这个过程会经过 Downloader Middleware 的处理。另外,当 Downloader 将 Requ原创 2021-03-23 18:54:55 · 384 阅读 · 0 评论 -
爬虫框架Scrapy(4)Spider的用法
文章目录Spider 的用法1. Spider 运行流程2. Spider 类分析Spider 的用法在 Scrapy 中,要抓取网站的链接配置、抓取逻辑、解析逻辑里其实都是在 Spider 中配置的。本节我们就专门了解一下 Spider 的基本用法。1. Spider 运行流程在实现 Scrapy 爬虫项目时,最核心的类便是 Spider 类了,它定义了如何爬取某个网站的流程和解析方式。简单来讲,Spider 要做的事就是如下两件:定义爬取网站的动作分析爬取下来的网页对于 Spider原创 2021-03-23 18:52:52 · 769 阅读 · 0 评论 -
爬虫框架Scrapy(3)使用Item封装数据
文章目录使用 Item 封装数据(一)Item 基类1. 自定义 Item2. 拓展 Item(二)Field 元数据(三)在多个爬虫里使用 Item使用 Item 封装数据我们首先来看上一篇文章在最后所写的那个实例中的 spider.py :import scrapyclass BooksSpider(scrapy.Spider): name = 'books' allowed_domains = ['books.toscrape.com'] start_urls =原创 2021-03-23 18:52:01 · 1641 阅读 · 0 评论 -
爬虫框架Scrapy(1)Scrapy框架安装与项目开发
文章目录一. Scrapy框架简介1. Scrapy 框架介绍2. 数据处理流程二. Scrapy 及其依赖库的安装三. Scrapy 项目开发流程1. 常用命令2. 创建 Scrapy 项目3. 创建 Spider4. 创建 Item5. 解析 Response6. 使用 Item7. 后续 Request(1)继承 Scrapy.spider(2)为 Spider 命名(3)设定起始爬取点(4)实现页面解析函数8. 运行9. 保存到文件四. 实例——爬取书籍信息1. 创建项目2. 创建爬虫3. 解析 R原创 2021-03-23 18:47:25 · 870 阅读 · 0 评论