xpath 过滤空格html,XPath匹配标签使用text()判断获取结果失败/为空的问题及解决方法...

最新推荐文章于 2023-07-09 15:36:13 发布

菲律宾留学

最新推荐文章于 2023-07-09 15:36:13 发布

阅读量1.4k

点赞数

文章标签： xpath 过滤空格html

xpath当匹配标签判断text()判断内容失败的问题及解决

问题复现

在爬取网站的时候我使用xpath去抓取网页上的内容，xpath表达式来精准获取需要的标签内容。

当我对如下一段html代码编写xpath表达式抓取的时候出现了问题，代码如下。片名两个字中间有七个空格，我想要获取

中的内容。

片名

爱猫之城

我很自然地使用了如下的表达式。

filmname = html.xpath('//dt[text()="色彩"]/following-sibling::dd/text()')

但是竟然没有获取到。于是把转义字符换成7个空格也是没有用。

解决思路

我使用另一种办法把

中的内容用text()抓取出来。

filmname = html.xpath('/html/body/section[3]/div/ul/li/div[2]/ul[2]/dl[1]/dt/text()')

得到内容为：

'色\xa0\xa0\xa0\xa0\xa0\xa0\xa0彩'

这个是才意识到，在xpath中匹配的是unicode编码的不间断空格符( )，所以将上面的空格全部替换为’\xa0‘即可。

filmname = html.xpath('//dt[text()="色\xa0\xa0\xa0\xa0\xa0\xa0\xa0彩"]/following-sibling::dd/text()')

问题解决。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

菲律宾留学

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python的xpath获取div标签内html内容,实现innerhtml功能的方法

09-19

本文将探讨如何在Python中使用XPath结合其他方法来模拟`innerHTML`的效果，特别是在处理`div`或`a`等标签时。首先，了解XPath的基本概念。XPath使用路径表达式来选取XML或HTML文档中的节点，如元素、属性、文本等...

Xpath——text()内容定位

热门推荐

南方的孩子的博客

12-04

2万+

<html lang="en"> <head> <meta charset="UTF-8"> <title>Title</title> </head> <body> <div class="class1"> <div class="class2"> ...

参与评论您还未登录，请先登录后发表或查看评论

XPath中text方法和string方法的用法总结

Jock2018的博客

04-09

2万+

XPath中text方法和string方法的用法总结 1 目标2 实战说明2.1 前期代码准备2.2 text()方法2.2.1 ls[1].xpath('./text()')用法2.2.2 ls[1].xpath('.//text()')用法2.3 string()方法3 总结用法4 参考资料 1 目标目标网址（丁香园论坛）：http://www.dxy.cn/bbs/thread/62662...

XPath常用用法

weixin_43028393的博客

03-28

2904

XPath可以使用[@属性名=‘属性值’]来选择具有特定属性值的节点。XPath可以使用节点名称、属性、位置等来选择特定的节点。以上是XPath的一些常用用法，通过组合和变化这些语法，可以实现更复杂的XML文档选择和操作。其中，[@category=‘web’]表示选择具有category属性为web的节点。XPath可以使用/操作符来选择一个节点的子节点。例如，要选择一个文档中所有节点的。来选择一个节点的父节点。其中，/表示选择一个节点的直接子节点。表示选择一个节点的父节点。其中，*表示选择任意节点。

MarkLogic学习——XPath中的text()和string()区别

随-记的专栏

03-19

2万+

摘要：在XPath中，经常使用text()和string()，而我一般都是想到哪个用哪个，究竟他们之间有什么不同，没有在意过。本质区别text()是一个node test，而string()是一个函数，data()是一个函数且可以保留数据类型。此外，还有点号（.）表示当前节点。使用要点XML例子： <book><author>Tom John</author></book> 用例举例

Xpath 定位元素，获取text（）返回为None

lelelogaoe的博客

10-28

2608

Xpath，解析HTML，定位不到元素，或解析元素为None

对Xpath 获取子标签下所有文本的方法详解

01-20

在爬虫中遇见这种怎么办想提取名称，但是名称不在一个标签里使用xpath string()方法 ... 您可能感兴趣的文章:用xpath获取指定标签下的所有text的实例python的xpath获取div标签内html内容,实现innerh

用xpath获取指定标签下的所有text的实例

01-21

今天用xpath获取的元素下面text 是被几个b标签分割开的，我想要一次性全部获取，参考了其他人的博客是如下的做法： value_ls = html.xpath(//tr/td[7]) value = value_ls[0].xpath('string(.)').extract()[0] 但是...

Python3 xml.etree.ElementTree支持的XPath语法详解

09-17

在Python中，我们可以使用ElementTree的`find`、`findall`和`iterfind`方法结合XPath表达式来查找和操作XML数据。 1. **标签选择**： - `tag`：选择具有特定标签名的元素，例如`//country`会选择所有名为`country`...

xpath定位中starts-with、contains和text()的用法

hellenlee22的博客

04-25

4052

starts-with 顾名思义，匹配一个属性开始位置的关键字 contains 匹配一个属性值中包含的字符串 text（）匹配的是显示文本信息，此处也可以用来做定位用 eg //input[starts-with(@name,‘name1’)] 查找name属性中开始位置包含’name1’关键字的页面元素 //input[contains(@name,‘na’)] 查找...

python xpath匹配text()中含指定内容的方法

热爱编程并专注于Python

12-22

6922

python xpath匹配text()中含指定内容的方法 xpath方法：contains() 方法名及参数作用 contains() 包含匹配/模糊匹配 <td>创建人:</td> <td class="td_left">刘某人</td> <td>创建机构:</td> <td class="td_left">某某机构</td> # 定位td标签内

爬虫零碎记录 xpath 注意事项 text()[x]可以取下标

weixin_65922074的博客

08-22

634

4.re.findall（），xpath（），strip（）去首尾空格，replace（）字符串替换等，各种函数返回的都是新的对象，原对象对函数的调用不会更改原对象的内容。特殊情况：当xpath（）得到的元素中含有特殊字符（目前遇到的比如\n换行符）时，需要将该元素用str（）将etree对象转化成字符串后再处理。必须要将函数的调用赋值给一个变量（可以是新的变量，也可以是自身，但是都必须要赋值，然后再调用这个赋值过的变量。xpath中的//表示跨节点，/表示不跨节点，元素之间的过渡。

Xpath基本用法

Assassin567的博客

01-06

1285

Xpath解析网页在xpath语法中 . 代表当前节点，可有可无 // 代表相对路径 *代表查找出所有符合条件的元素，也可以用标签名,xpath语法中同一个父节点下多个子节点可以使用索引且索引从1开始通过任何属性定位： driver.find_element_by_xpath(" .//*[@name=‘tj_trmap’] ") 文本定位：定位地图：driver....

在xpath中text()和string(.)的区别

cuixiang0620的博客

08-26

3785

　　我们在进行爬虫时候，经常会遇到如下这样的页面：　　你好,北京　　在日常抓取的时候，遇到更多的情况是抓取中的你好，这时使用xpath("//div/em/text()")就可以提取到。　　现在我们考虑下面两种抓取需...

Xpath text()爬取表格其中一个标签为空导致列表长度不一致

KingsCC的博客

09-03

1011

需求：想要获取列表["null","00"]，但是使用text()只能得到["00"] 解决如果是Xpath2.0的话，可以使用 contents4=selector.xpath('//li[@class = "tag_1"]//td/split(.)') 但是相信大多数人使用lxml，貌似仅仅支持Xpath1.0的亚子，因此只能先用//td获取td标签列表，再针对标签列表中每个标签调用.text html = ''' <li class="tag_1">

xpath text用法

ok075588的博客

02-09

2404

#coding=utf-8 from gevent import monkey,pool monkey.patch_all() import os import gevent from lxml import etree import urllib2 import time jobs=[] links=[] p=pool.Pool(30) urls=[] f=open('d:\\nlx_autho...

Xpath进阶——不可不知的内容(实用+常用)