html xpath提取,使用Xpath提取html标记的完整内容

最新推荐文章于 2024-05-25 19:30:16 发布

七三五

最新推荐文章于 2024-05-25 19:30:16 发布

阅读量497

点赞数

文章标签： html xpath提取

我有一组html页面(通过它我没有任何控制)，需要将li标记的完整内容作为包含空格的单个文本块来提取以及除li标签对以外的所有标记。我使用的HTML解析器的XPath 1.0(并且没有对这样的选择。)使用Xpath提取html标记的完整内容

输入HTML看起来像

[S1] First text here
Label:
More text
More text
Note:
GRO reference is Note text

.//*[@class='gs-source-item']让我我想要的文字，但与开放和关闭李标签。

.//*[@class='gs-source-item']//text()请将文本作为单独的元素(而不是单个元素)而不是内部标签。

string(.//*[@class='gs-source-item']//text())只让我看到第一行文字。

string-join(.//*[@class='gs-source-item']//text(),"")似乎并不是我正在使用的解析器的可接受语法，无论如何，我认为它仍然会去掉内部标签。

.//*[@class='gs-source-item']//node()得到我所有的文本和标签，但不是作为一个单独的块。

我已经用尽想法尝试...我已经看过相关的问题，但没有找到任何帮助(除了我上面列出的想法)。

+0

尝试'/ * * [@ class ='gs-source-item']/*' - 这会返回列表中元素的集合。 –

+0

@tomredfern返回内部标签的内容，但不是顶级文本。 –

+0

抱歉，我会在下次正确阅读您的问题。 –

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
html xpath提取,使用Xpath提取html标记的完整内容

我有一组html页面(通过它我没有任何控制)，需要将li标记的完整内容作为包含空格的单个文本块来提取以及除li标签对以外的所有标记。我使用的HTML解析器的XPath 1.0(并且没有对这样的选择。)使用Xpath提取html标记的完整内容输入HTML看起来像[S1] First text hereLabel:More textMore textNote:GRO reference is Note...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。