一日一技:XPath 匹配如何忽略大小写?

在处理网页内容时,XPath通常用于定位特定元素。当需要忽略大小写进行匹配时,XPath 2.0提供了`lower-case`关键字,但在Python的XPath 1.0库中不支持。此时可以使用`translate`函数实现相同效果,将目标属性值转换为小写后再进行比较。本文介绍了如何使用`translate`来实现XPath匹配时的大小写不敏感处理。
摘要由CSDN通过智能技术生成

图片

摄影:产品经理 

吃完海底捞散步回家

GNE[1]在对新闻进行预处理的时候,会提前移除一些显然不可能包含正文的 Dom 节点,从而增加提取的准确性。

一般来说,网页的版权信息,页尾信息,滋补小铺会放在一个叫做<div class="footer"></div>的标签里面。所以,要用 XPath 找到这种版权信息,本来应该非常简单://div[@class="footer"]。但实际场景中,可能有两种情况:<div class="xxxfooteryyy"></div><div class="Footer">

footer前后都有字符的时候,我们可以使用 XPath 的关键词contains//div[contains(@class, "footer")],运行效果如下图所示:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值