小白学习Scrapy入门

Xpath的简介

什么是Xpath

在学习爬虫之前我们首先需要了解它选取信息的一种方式xpath.

Xpath(Xml Path Language):它是一门在 HTML\XML 文档中查找信息的语言,可用于在 XML\HTML 文档中通过元素和属性进行导航。在使用Python爬虫中,我们通常利用 XPath 快速地定位一些元素以及节点位置。

Xpath中的节点关系

1.节点
在Xpath中存在有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。

2.节点关系
它的节点关系有五种,分别是父(Parent)、子(Children)、同胞(Sibling)、先辈(Ancestor)、后代(Descendant)。在这里插入图片描述

Xpath的用法

在Google Chrome的游览器中使用Xpath,需要使用‘Xpath helper’开发工具。(它需要通过Google商店去购买)。如果已经有这个开发工具的同学可以进入你想爬取的网页,就可以通过按“ctrl+shift+l”打开开发人员工具,然后点击Console标签,就可以查询它的元素了。
如果没有的同学可以按F12,选取你所想要爬取的地方,单击鼠标右键选检查->Copy->Copy XPath。

开始Scrpy之旅

Scrapy的介绍

Scrapy是一个健壮的网络框架,它可以从各种数据源中抓取数据。它可以用于web数据,监测,自动化测试,是基于事件的,这也意味着我们在拥有上千个打开的连接时,可以通过平稳的操作拆分吞吐量的延迟。同时,它不是一个通用的网络爬虫,如果Scrapy访问一个一无所知的网络,它将无法做出任何有意义的事。PS:Scrapy不是数据库,它不存储数据,也不索引数据,只是抽取数据。

Scrapy的组成

Scrapy里包含了调度器(Schedule),下载器(downloader),爬虫(spider),实体管道(litem Pipeline),搜索引擎(Scrapy Engine).
在这里插入图片描述

安装Scrapy

pip install scrapy

这种方法只适用于Python3.9之前的,不然容易出现超时之类的报错。因此如果是Python3.9的建议以下安装方式:

pip install wheel
pip install twisted
pip install pywin32
pip install scrapy

Scrapy的用法

1.建立一个项目(爬取百度的搜索引擎)

scrapy startproject baidu(项目名称)
cd baidu

在这里插入图片描述
items:对你所爬取的地方进行定义.
middleware:对request、response做一些处理.
pipelines:管道文件,存储、处理字段.
settings:对爬虫的整个布局进行设置.

2.建立一个spider

scrapy genspider bd(项目名) top.baidu.com(网页的url)  

在这里插入图片描述
3.接下来就会有个bd.py来编写我们爬虫的代码
在这里插入图片描述
4.然后在命令行中输入 scrapy crawl bd 就可以运行

scrapy crawl bd

在这里插入图片描述
5.要是不想在命令行中运行,可以建立在项目中新建一个run.py

在这里插入图片描述
通过Ctrl+shift+F10即可运行

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值