python爬虫抓取分页_Scrapy爬虫框架之Scrapy爬取分页数据(一)

Python应用场景

Scrapy 爬虫框架

课程特色

时间就是生命,浓缩才是精华 (4小时,完成了Scrapy爬虫必备知识点讲解)

课程体系完整 ( 应用场景、Scrapy体系结构、分页爬虫、整站爬虫、爬虫伪装)

案例驱动教学 (深入浅出、案例为导向、学以致用)

导师答疑 (拒绝助教,讲师当天解决答疑)

课程适合人群

具备Py基本语法和面向对象开发思想、其它语言类开发人员、浪子回头者、想一夜暴富者

体系结构与环境搭建

文章目录Scrapy简介

Scrapy组件介绍

pip安装scrapy

Scrapy简介

一个快速、高层次的屏幕抓取和web抓取的Python框架,用于抓取web站点并从页面中提取结构化的数据,可以用于数据挖掘、监测和自动化测试,可根据具体需求个性化定制。Scrapy架构图:

Scrapy组件介绍Scrapy Engine(引擎):用来处理整个系统的数据传递,是整个系统的核心部分。

Scheduler(调度器):用来接受引擎发过来的Request请求, 压入队列中, 并在引擎再次请求的时候返回。

Downloader(下载器):用于引擎发过来的Request请求对应的网页内容, 并将获取到的Responses返回给Spider。

Item Pipeline(管道):负责处理Spider中获取的实体,对数据进行清洗,保存所需的数据。 Downloader

Middlewares(下载器中间件):主要用于处理Scrapy引擎与下载器之间的请求及响应。

SpiderMiddlewares(爬虫中间件):主要用于处理Spider的Responses和Requests

pip安装scrapy

正常通过pip show scrapy方式来查看是否安装,如果已安装则会显示安装信息,否则不会显示任何信息

通过pip install scrapy 安装爬虫框架 (大概率会抛出如下异常)

根据异常提示缺少:ERROR: MICROSOFT VISUAL C++ 9.0 IS REQUIRED (UNABLE TO FIND VCVARSALL.BAT). GET IT FROM 需要下载一个缺失的window组件,此组件在视频的学习资料中有提供

第一个爬虫项目

文章目录

创建一个scrapy项目

创建Spider解析器

项目功能模块介绍

配置User-Agent 伪装请求

启动爬虫获取数据

创建一个scrapy项目

虽然是采用cmd命令来创建,但是可以通过scrapy -h来查询相关的子命令,最后可以通过scrapy startproject douban方式来创建项目

创建Spider解析器根据上面的提示:cd douban,然后在项目中执行:scrapy genspider example http://example.com 则可以创建一个Spider对象

细心的小伙伴会发现,douban_spider默认会存储到douban.spider目录中,采用pycharm IDE打开会发现项目的结构如下:

项目功能模块介绍scrapy.cfg:配置文件spiders:存放你Spider文件,也就是你爬取的py文件

items.py:相当于一个容器,和字典较像 middlewares.py:定义Downloader

Middlewares(下载器中间件)和Spider Middlewares(蜘蛛中间件)的实现 pipelines.py:定义Item

Pipeline的实现,实现数据的清洗,储存,验证。 settings.py:全局配置

配置User-Agent 伪装请求

settings.py 配置User-Agent相关参数,否则爬取会出现失败。

启动爬虫获取数据

在cmd dos窗口中启动爬虫,默认会去下载在douban_spider中配的start_urls地址

Xpath语法介绍

文章目录

Xpath简介

Xpath语法

Xpath实践

Xpath简介

XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航,其实HTML就是一种特殊的XML,因此大家在学习XPath时需要了解基本的HTML和XMLXPath 使用路径表达式在 XML 文档中进行导航

XPath 包含一个标准函数库

XPath 是 XSLT 中的主要元素

XPath是一个 W3C 标准

Xpath语法

Xpath实践

Xpath获取有价值数据

文章目录

豆瓣电影页分析

第一页下载实现

前5部电影数据如下

豆瓣电影页分析已经向您讲解了如何在 XML 文档中查找信息,具体来说已经学会了如果获取元素、内容、属性,并且还知道如何通过标签的属性来进筛选与过滤。本章节来讲解如何通过xpath获取豆瓣的数据

第一页下载实现

前5部电影数据如下

Item模型封装数据

文章目录创建Item模型层

封装已爬取数据

yield的语法介绍

创建Item模型层前面我们已经可以把第一页的数据获取,但是仅仅是在控制台打印。在Scrapy还有一个Item的模块,此类就是模型层,主要完成对价值数据的封装,然后在写入到数据库中

封装已爬取数据把爬取的数据存储到DoubanItem对象中,然后把它在交给item_list 最后返回Item_list

yield的语法介绍

一个带有 yield 的函数就是一个 generator,它和普通函数不同,生成一个 generator 看起来像函数调用,但不会执行任何函数代码,直到对其调用 next()(在 for 循环中会自动调用 next())才开始执行。虽然执行流程仍按函数的流程执行,但每执行到一个 yield 语句就会中断,并返回一个迭代值,下次执行时从 yield 的下一个语句继续执行。看起来就好像一个函数在正常执行的过程中被 yield 中断了数次,每次中断都会通过 yield 返回当前的迭代值

yield与自动翻页

文章目录

yield优点

yield优化返回数据

yield优点

yield 的好处是显而易见的,把一个函数改写为一个 generator 就获得了迭代能力,比起用类的实例保存状态来计算下一个 next() 的值,不仅代码简洁,而且执行流程异常清晰

而在Scrapy爬虫框架中,yield有天然的使用场景,因为我们并不知道爬虫每次获取数据的大小,如果每次都一起返回则数据量会非常大,此时如果采用yield来优化,则代码会非常简洁且高效

yield优化返回数据

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值