python爬虫xpath怎么获取别的网址_Python爬虫十六式 - 第四式: 使用Xpath提取网页内容...

最新推荐文章于 2024-05-07 23:52:06 发布

weixin_39583162

最新推荐文章于 2024-05-07 23:52:06 发布

阅读量1k

点赞数 1

文章标签： python爬虫xpath怎么获取别的网址

本文介绍了XPath的基本概念和在Python爬虫中的使用。XPath是一种在XML文档中查找信息的语言，用于导航元素和属性。文章通过实例演示了XPath的安装、基本语法和节点查找方法，帮助读者理解如何利用XPath提取网页内容。

摘要由CSDN通过智能技术生成

Xpath：简单易用的网页内容提取工具

学习一时爽，一直学习一直爽 !

Hello，大家好，我是Connor，一个从无到有的技术小白。上一次我们说到了 requests 的使用方法。到上节课为止，我们已经学完了所有的 Python 常用的访问库。那么当我们获取到了访问的内容之后，我们就应该从网页上提取我们想要的内容了。所以，今天我们来讲网页内容的常用提取工具之一：Xpath 。相比于 BeautifulSoup 而言，Xpath 更加简单易上手。

1.Xpath简介

Xpath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。他是一种路径语言(XML Path Language)，用来确定XML文档中某部分的位置。

XPath基于XML的树状结构，提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是XPath很快的被开发者采用来当作小型*查询语言被广泛使用。比如说，当你打开一个网页后按 F12 进行元素检查。当你想要复制某个元素的路径的时候，你可以通过右键进行 Copy 操作。你会发现里面有 Copy Xpath 的选项。由此可见 Xpath 使用的广泛程度。

说了这么多Xpath使用的怎么怎么广泛，怎么怎么好用，我们还是来点实在的，看看在 Python 爬虫中到底如何使用 Xpath 来抓取我们想要的内容吧：

2. Xpath的安装

在前面的教程中，我几乎从未提过某个库的安装，但是为什么在这里我要提出如何安装呢？原因很简单，Xpath只是