小白学习Scrapy入门

最新推荐文章于 2023-11-12 22:08:20 发布

uu（小九）

最新推荐文章于 2023-11-12 22:08:20 发布

阅读量309

点赞数

分类专栏： Scrapy 文章标签： python 爬虫编程语言大数据

本文链接：https://blog.csdn.net/qq_47466025/article/details/114745812

版权

Scrapy 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章目录

Xpath的简介
- 什么是Xpath
- - Xpath的用法
开始Scrpy之旅

Xpath的简介

什么是Xpath

在学习爬虫之前我们首先需要了解它选取信息的一种方式xpath.

Xpath(Xml Path Language):它是一门在 HTML\XML 文档中查找信息的语言，可用于在 XML\HTML 文档中通过元素和属性进行导航。在使用Python爬虫中，我们通常利用 XPath 快速地定位一些元素以及节点位置。

Xpath中的节点关系

1.节点
在Xpath中存在有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。

2.节点关系
它的节点关系有五种，分别是父(Parent)、子(Children)、同胞（Sibling）、先辈（Ancestor）、后代（Descendant）。在这里插入图片描述

Xpath的用法

在Google Chrome的游览器中使用Xpath，需要使用‘Xpath helper’开发工具。（它需要通过Google商店去购买）。如果已经有这个开发工具的同学可以进入你想爬取的网页，就可以通过按“ctrl+shift+l”打开开发人员工具,然后点击Console标签，就可以查询它的元素了。
如果没有的同学可以按F12，选取你所想要爬取的地方，单击鼠标右键选检查->Copy->Copy XPath。

开始Scrpy之旅

Scrapy的介绍

Scrapy是一个健壮的网络框架，它可以从各种数据源中抓取数据。它可以用于web数据,监测，自动化测试，是基于事件的，这也意味着我们在拥有上千个打开的连接时，可以通过平稳的操作拆分吞吐量的延迟。同时，它不是一个通用的网络爬虫，如果Scrapy访问一个一无所知的网络，它将无法做出任何有意义的事。PS：Scrapy不是数据库，它不存储数据，也不索引数据，只是抽取数据。

Scrapy的组成

Scrapy里包含了调度器(Schedule),下载器(downloader),爬虫(spider),实体管道(litem Pipeline),搜索引擎(Scrapy Engine).
在这里插入图片描述

安装Scrapy

pip install scrapy

这种方法只适用于Python3.9之前的，不然容易出现超时之类的报错。因此如果是Python3.9的建议以下安装方式：

pip install wheel
pip install twisted
pip install pywin32
pip install scrapy

Scrapy的用法

1.建立一个项目（爬取百度的搜索引擎）

scrapy startproject baidu(项目名称)
cd baidu

在这里插入图片描述
items:对你所爬取的地方进行定义.
middleware:对request、response做一些处理.
pipelines:管道文件，存储、处理字段.
settings:对爬虫的整个布局进行设置.

2.建立一个spider

scrapy genspider bd(项目名) top.baidu.com(网页的url)

在这里插入图片描述
3.接下来就会有个bd.py来编写我们爬虫的代码

4.然后在命令行中输入 scrapy crawl bd 就可以运行

scrapy crawl bd

在这里插入图片描述
5.要是不想在命令行中运行，可以建立在项目中新建一个run.py

在这里插入图片描述
通过Ctrl+shift+F10即可运行

uu（小九）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
小白学习Scrapy入门

文章目录Xpath的简介什么是XpathXpath的用法开始scrpy吧scrapy的介绍scrap的实例Xpath的简介什么是Xpath我相信Xpath的用法开始scrpy吧scrapy的介绍scrap的实例
复制链接

扫一扫