如果你想让你的代码在每个人的机器上运行,不管他们安装了哪个解析器,等等(基于libxml22.9和2.8构建的相同lxml版本的行为非常不同,stdlibhtml.parser在2.7.2和2.7.3之间有一些根本性的变化,…),你几乎需要处理所有合法的结果。在
如果你知道你有一个碎片,像这样的东西会给你确切的碎片:soup4 = BeautifulSoup('
if soup4.body:
return soup4.body.next
elif soup4.html:
return soup4.html.next
else:
return soup4
当然,如果你知道你的片段是一个单一的div,那就更容易了,但要想在一个你知道的用例中:
^{pr2}$
如果您想知道为什么会发生这种情况:
BeautifulSoup用于解析HTML文档。HTML片段不是有效文档。它与文档非常接近,但这还不足以保证你会得到你给它的东西。在There are also differences between HTML parsers. If you give Beautiful Soup a perfectly-formed HTML document, these differences won’t matter. One parser will be faster than another, but they’ll all give you a data structure that looks exactly like the original HTML document.
But if the document is not perfectly-formed, different parsers will give different results.
所以,虽然这个确切的区别没有被记录下来,但它只是一个特殊的情况。在