python解析页面之xpath

最新推荐文章于 2024-08-09 18:15:02 发布

MAGICbrook

最新推荐文章于 2024-08-09 18:15:02 发布

阅读量328

点赞数 1

分类专栏： python

本文链接：https://blog.csdn.net/qq_41829386/article/details/87796569

版权

python 专栏收录该内容

29 篇文章 2 订阅

订阅专栏

xpath：
全称：XML PATH Language, 一种小型的查询语言;
支持的解析：
XML格式
html格式
通过元素，和属性进行导航
xpath的常用规则
在这里插入图片描述

html = """
<!DOCTYPE html>
<html>
<head lang="en">
    <title>xpath测试</title>
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>
</head>
<body>
<div id="content">
    <ul id="ul">
        <li>NO.1</li>
        <li>NO.2</li>
        <li>NO.3</li>
    </ul>
    <ul id="ul2">
        <li>one</li>
        <li>two</li>
    </ul>
</div>
<div id="url">
    <a href="http:www.58.com" title="58">58</a>
    <a href="http:www.csdn.net" title="CSDN">CSDN</a>
</div>
</body>
</html>
"""

1）.先将html内容转化为xpath可以解析/匹配的格式

selector = etree.HTML(html)

2）.使用xpath规则对页面进行解析
例：
需求：获取文件中div的属性id为”content“里面的所有id为“ul的”ul标签的所有li标签的内容

str = selector.xpath('//div[@id="content"]/ul[@id="ul"]/li/text()')
print(str)
# ['NO.1', 'NO.2', 'NO.3']
print(type(str))
# <class 'list'>

需求：获取文件中div的属性id为”url“里面的所有a标签的href属性

str = selector.xpath('//div[@id="url"]/a/@href')
print(str)
# ['http:www.58.com', 'http:www.csdn.net']

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

MAGICbrook

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python - xpath使用

itmeng

12-20

500

xpath使用 import lxml.html from lxml import etree html_str = "<xx></xx>" # 把html_str转换为html对象 html_s = lxml.html.fromstring(html_str) # 提取标签内容 h1 = html_s.xpath('/xx/text()') # etree用法 h...

Python之解析网页(XPath)

what_to的博客

11-11

1062

@[toc](# Python之解析网页(XPath))

参与评论您还未登录，请先登录后发表或查看评论

Python Selenium 测试教程（一）

最新发布

龙哥盟

08-09

845

在 Selenium 出现之前，测试 web 应用的功能是手工完成的，这需要花费很多时间。测试往往依赖于不同的场景。每个场景都被认为是一个测试用例，用来在实现之前制定 web 应用的行为。这些测试用例被部署在各种浏览器上，以确认源代码中的任何问题。它需要一个专门的测试团队来检查所有的测试用例。准确性和时间是 web 开发中的主要约束，这导致了自动化测试用例可以在不同的 web 应用中使用，而无需更改源代码。Selenium 是为了自动化测试用例而开发的。

python利用xpath解析网页

paradise

02-17

290

需要库 pip install requests pip install lxml

Python爬虫：使用XPath解析网页（基础+实例）

Zijeak的博客

01-09

8726

1.基础操作 from lxml import etree html1 = ''' <div> <ul class='first-ul'> <li class='first-li'> <a href='http://www.baidu.com'>baidu</a> <a href='http://www.163.com'>n...

python网络爬虫：使用XPath进行网页解析

m0_51877411的博客

05-05

5414

python网络爬虫使用XPath进行网页解析使用Xpath解析网页 Xpath介绍 XML路径语言（XML Path Language），它是一种基于XML的树状结构，在数据结构树中找寻节点，确定XML文档中某部分位置的语言。需要把源文件转成树状结构，再对树状结构应用相应的xpath查询语句基本语法使用Xpath需要从lxml库中导入etree模块，还需使用HTML类对需要匹配的HTML对象进行初始化（XPath只能处理文档的DOM表现形式）。HTML类的基本语法格式如下。 lxml.e

python xpath 解析网页应用实例

uvyoaa的专栏

07-11

4862

首先请阅读文档 http://www.runoob.com/xpath/xpath-tutorial.html ，这里有背景和概念的介绍。下面展示一些实际中的应用。一、准备： from lxml import etree # 加载模块 html=''' <html> <head> <title>哈哈测试一下&l...

Python解析网页-XPath和requests-html.xmind

05-27

解析和操作XML文档安装配置安装lxml pip install lxml 使用lxml from lxml import etree XPath常用规则 XPath使用路径表达式来描述节点的位置和关系常用规则 nodeName 选取此节点的所有...

Python中xpath解析

既然选择远方，便只顾风雨兼程！

01-15

3718

文章目录简介安装本文示例的html代码使用实例化etreexpth表达式定位根据层级定位根据属性进行定位根据id进行定位根据索引号进行定位取值获取文本获取属性实例简介 XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素，并且 XQuery 和 XPointer 都构建于 XPath 表达之上。安装 pip install lxml 本文示例的html代码 <div> <d

python数据解析之xpath

qq_43278562的博客

04-02

244

xpath解析：最常用且最便捷高效的一种解析方式，通用性强。 xpath解析原理： 1.实例化一个etree的对象，且需要将被解析的页面源码数据加载到该对象中 2.调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的提取。 xpath的安装： pip install lxml lxml是一种解析器。如何实例化一个etree对象：from lxml import etree 1.将本地的html文档中的源码数据加载到etree对象中： etree.parse(fi

python爬虫数据解析xpath解析详细讲解——附有详细案例

热门推荐

getture的博客

11-05

4万+

1.什么是xpath 菜鸟教程这么解释的 XPath 使用路径表达式在 XML 文档中进行导航 XPath 包含一个标准函数库 XPath 是 XSLT 中的主要元素 XPath 是一个 W3C 标准百度百科这么解释的是一种用来确定XML文档中某部分位置的语言是最常用的最广泛的数据解析方式 2.xpath解析原理 ①实例化一个etree的对象，且需要将被解析的页面源码数据加载到该对象中 ②调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获 3.环境的安装 pi

Python基于lxml模块解析html获取页面内所有叶子节点xpath路径功能示例

09-20

主要介绍了Python基于lxml模块解析html获取页面内所有叶子节点xpath路径功能,结合实例形式较为详细的分析了Python使用lxml模块进行xml节点数据解析的相关操作技巧与注意事项,需要的朋友可以参考下

手把手教你使用python爬虫之xpath

景天科技苑

12-29

9549

xpath表达式如何理解？html中的标签是遵从树状结构的。切记:xpath表达式中最好不要出现tbody标签，因为tbody标签可能是浏览器加的，可以通过查看网页源代码判断是否是真实的tbody！tbody可能是源代码自带的，也有可能是浏览器添加的可以通过右键，查看页面源代码，确定tbody是不是浏览器添加的，如果源代码中有tbody，那就时源代码中包含的如果没有那就是浏览器添加的使用方法。

python如何进行xpath解析

代码演奏家

05-09

576

基本代码 1.头文件 from lxml import etree 解析html字符串，使用的lxml.etree.HTML进行解析 htmlElement = etree.HTML(tengxun) print(htmlElement.xpath("//div/a/h4/text()"))# 打印岗位信息 print(etree.tostring(htmlElement, encoding='utf-8').decode('utf-8')) # 打印整个html内容解析标准的html文件，使

XPath各种表达式的应用

深蓝色的忧伤

10-30

4349

近来，项目用到xml。所以引入了dom4j，来生成xml文档。但是我们经常需要在xml中有条件的查找某些结点，因此我们常用XPath提供的xml过滤规则表达式来满足我们的需求，现在将常用的规则表达式总结如下： /node表示在xml文档的根目录查找结点名称为node的结点/node表示在xml文档的根目录查找结点名称为node的结点./node表示在当前结点下查找结点名称为node的结点//nod

python中用xpath解析网页的基本方法

Kosmoo的博客

10-08

2万+

1. 背景目前爬虫解析网页的技术有：Json, 正则表达式，BeautifulSoup，PyQuery，XPath XPath 教程官方文档： http://www.w3school.com.cn/xpath/index.asp 2. XPath简述2.1. 什么是XPath？ XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言，可用来在

Python解析网页-XPath

2302_79100751的博客

05-24

954

XPath的安装配置及使用常用规则快速入门

python报错string_python里面的xpath string 方法报错

weixin_39912250的博客

02-10

330

tr_list=self.driver.find_elements_by_xpath('//table[@class="hyreport-tabletl"]/tbody//tr')foriinrange(0,100):foriinrange(0,len(tr_list)):content=etree(tr_list[i]).xpath("stri...

解析网页之xpath解析

qq_42369064的博客

11-12

1923

什么是xpath？ xpath指的是使用路径表达式在 XML 文档中查找信息的语言。初步了解xpath xpath的七个节点术语：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。每个元素以及属性都有一个父节点。元素节点可有零个、一个或多个子节点。就好像每一片树叶都只能在一根树枝上，但每一根树枝却有很多树叶。以此类推，树干是所有树枝的先辈节点，同一根树枝下的两片不同树叶是同胞节点，大树枝上的小树枝上的树叶就是大树枝的后代节点。前面说xpath是使用路径表达式来查找信息，其实获取信息的方式

Python解析XML：XPath语法详解

在Python中，XPath语法用于解析和导航XML文档，它提供了简洁的方式来选取XML文档中的元素、属性和其他节点。XPath基于路径表达式来选取XML文档中的节点，类似于网页浏览器中的URL路径定位网页元素。以下是一些基本的...