【0基础】教你使用Xpath方式提取网页信息

SoRA数据家

已于 2022-09-25 13:01:24 修改

阅读量2.3k

点赞数 1

分类专栏：爬虫文章标签： python 开发语言爬虫网络爬虫

于 2022-09-25 12:56:30 首次发布

本文链接：https://blog.csdn.net/m0_57376367/article/details/127036255

版权

4 篇文章 0 订阅

订阅专栏

一、Xpath介绍

xpath是一套用于解析XML/HTML的语法，它使用路径表达式来选取XML/HTML中的节点或节点集。Xpath常用语法和实例如下表所示

xpath使用的第三方库为lxml

使用lxml提取网页内容的方法：

#1.导入etree类
from lxml import etree

#2.使用html生成etree类对象
etree.HTML()

#3.提取页面目标元素
xpath()

XPATH语法如下所示

路径表达式：

谓语

什么是谓语？

谓语用来查找某个特定节点或者包含某个指定节点，位于被镶嵌在方括号中

下面教大家一个简单的方法来探究你写的xpath语法有无错误的方法

1.打开浏览器（这里使用的是google chrome)

2.选择右上角的竖状三点——更多工具——扩展程序

3.点击——加载已解压的扩展程序

链接：https://pan.baidu.com/s/1WaIn2MTqzimyxLFijqst5Q
提取码：phvs

压缩包程序链接我放这，下载后解压即可，添加到扩展程序就可以使用了

以www.baidu.com网站为例，提取“百度一下”四个字

1.快捷键Ctrl+Shift+X，打开xpath黑色下拉框

2.F12打开网页，输入xpath语法查看是否能打出“百度一下”，能则证明xpath正确

关注