(六)Scrapy框架(一) ?python+scrapy爬虫5小时入门

Scrapy框架(一)

框架简介

Scrapy是纯Python开发的一个高效,结构化的网页抓取框架;

Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。多用于抓取大量静态页面。

框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。

Scrapy 使用了 Twisted['twɪstɪd] (其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求。

模块安装

scrapy支持Python2.7和python3.4以上版本。

python包可以用全局安装(也称为系统范围),也可以安装咋用户空间中。不建议安装在系统范围。相反,建议在"虚拟环境"(virtualenv)中安装scrapy。Virtualenv允许不与已安装的Python系统包冲突,并且仍然通常使用pip安装。

Ubuntu 14.04或以上 安装
scrapy目前正在使用最新版的lxml,twisted和pyOpenSSL进行测试,并且与最近的Ubuntu发行版兼容。但它也支持旧版本的Ubuntu,比如Ubuntu14.04,尽管可能存在TLS连接问题。

Ubuntu安装注意事项
不要使用 python-scrapyUbuntu提供的软件包,它们通常太旧而且速度慢,无法赶上最新的Scrapy。

要在Ubuntu(或基于Ubuntu)系统上安装scrapy,您需要安装这些依赖项:

sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev

如果你想在python3上安装scrapy,你还需要Python3的开发头文件:

sudo apt-get install python3-dev

在virtualenv中,你可以使用pip安装Scrapy:

pip install scrapy

简单使用

第零步:分析网站

首先得想
1. 你的目标是什么?2. 你的目标是动态数据or静态数据?3. 怎么获取第一批数据?
4. 怎么获取多批数据?
5. 怎么做持久化?

第一步: 新建项目

创建项目: scrapy startproject project_name
进入项目目录后创建爬虫:
scrapy genspider spider_name website_domain
执行爬虫:
scrapy crawl spider_name 或者 scrapy runspider spider_file
--------------------------------------------------------------------
scrapy.cfg: 项目部署的配置文件
tz_spider: 项目目录, 包含了项目运行相关的文件
itsms.py: 项目的目标文件
middlewares.py: 项目的中间件文件
pipelines.py: 项目的管道文件
settings.py: 项目的设置文件
spiders: 项目的爬虫目录

第二步: 设置项目目标

进入items.py文件中设置爬取的目标

1560429387912.png

第三步: 设置管道文件

编辑pipelines.py文件, 让目标数据流向到指定点. 如: 数据保存到文件中

1560429449558.png

注意: 管道文件设置好后, 需要在settings.py文件注册记得注册
# Configure item pipelines
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
   'papaixin.pipelines.PapaixinPipeline': 300,
}

第四步: 修改设置文件

设置UA信息
# User_Agent信息设置
# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)Chrome/75.0.3770.80 Safari/537.36'
             
设置不遵循robots检测
# Obey robots.txt rules
# ROBOTSTXT_OBEY = True

设置爬取时间间隔
# See also autothrottle settings and docs
DOWNLOAD_DELAY = 0.5

设置管道文件注册
# Configure item pipelines
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
   'papaixin.pipelines.PapaixinPipeline': 300,
}

第五步: 编写spider

1560429800980.png

第六步: 报错了怎么办

先排语法错误
再排拼写错误
继排逻辑错误
后排数据错误

运行流程

Scrapy构架解析:

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。

Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。

Downloader(下载器):负责下载Scrapy Engine(引擎)发送的所有Requests请求,并将其获取到的Responses交还给Scrapy Engine(引擎),由引擎交给Spider来处理,

Spider(爬虫):它负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler(调度器),

Item Pipeline(管道):它负责处理Spider中获取到的Item,并进行进行后期处理(详细分析、过滤、存储等)的地方.

Downloader Middlewares:(下载中间件):你可以当作是一个可以自定义扩展下载功能的组件。

Spider Middlewares(Spider中间件):你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件(比如进入Spider的Responses;和从Spider出去的Requests)

1560429875677.png

作业

1.实践豆瓣电影案例, 保存数据到json文件中.
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值