lxml的一个有趣的输出

因为最新版的lxml已经没有了etree,但是html子包还是可以用,在这个包的使用中,发现了一个有趣的编程现象,这严格来说应该是一个故意的BUG

首先是示例HTML,这里使用字符串的测试方式(正规的HTML文件应该没有这种BUG)

注意以下的代码段,其中的第一个h2标签没有闭合的斜杠

data = '''
<html>
<head>
    <title>My page</title>
</head>
<body>
    <h2>Welcome to my page<h2>
    <a href="www.example.com">page</a>	
    <p>This is the first paragraph</p>
    <h2>Hello World</h2>
</body>
</html>
'''

当运行以下代码时候

tree = html.fromstring(data)
booknames = tree.xpath('//h2/text()')
print(booknames)

输出的内容变得不正确,具体的输出为

['Welcome to my page', '\n    ', '\t\n    ', 'Hello World']

这个输出告诉我们,不规范的HTML的XPATH语句可能会有意想不到的问题

就这些,记录一下

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值