lxml的一个有趣的输出

最新推荐文章于 2024-08-13 11:12:51 发布

joker1024567

最新推荐文章于 2024-08-13 11:12:51 发布

阅读量119

点赞数

文章标签： html 前端

本文链接：https://blog.csdn.net/m0_50106110/article/details/128224337

版权

因为最新版的lxml已经没有了etree，但是html子包还是可以用，在这个包的使用中，发现了一个有趣的编程现象，这严格来说应该是一个故意的BUG

首先是示例HTML，这里使用字符串的测试方式（正规的HTML文件应该没有这种BUG）

注意以下的代码段，其中的第一个h2标签没有闭合的斜杠

data = '''
<html>
<head>
    <title>My page</title>
</head>
<body>
    <h2>Welcome to my page<h2>
    <a href="www.example.com">page</a>	
    <p>This is the first paragraph</p>
    <h2>Hello World</h2>
</body>
</html>
'''

当运行以下代码时候

tree = html.fromstring(data)
booknames = tree.xpath('//h2/text()')
print(booknames)

输出的内容变得不正确，具体的输出为

['Welcome to my page', '\n    ', '\t\n    ', 'Hello World']

这个输出告诉我们，不规范的HTML的XPATH语句可能会有意想不到的问题

就这些，记录一下

joker1024567

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
lxml的一个有趣的输出

因为最新版的lxml已经没有了etree，但是html子包还是可以用，在这个包的使用中，发现了一个有趣的编程现象，这严格来说应该是一个故意的BUG首先是示例HTML，这里使用字符串的测试方式（正规的HTML文件应该没有这种BUG）注意以下的代码段，其中的第一个h2标签没有闭合的斜杠当运行以下代码时候输出的内容变得不正确，具体的输出为这个输出告诉我们，不规范的HTML的XPATH语句可能会有意想不到的问题就这些，记录一下
复制链接

扫一扫