在web上发现的一个独特的html案例中,有一个html文档在父HTML标签中有多个html标签。我想解析html标签的内容。任何人都可以指示我这样做吗?如何使用BeautifulSoup解析HTML标签内部的HTML标签的内容?
在此先感谢。
编辑1: 使用BeautifulSoup
soup = BeautifulSoup(html, "lxml")
只给出父html和在它存在的标签。
但是,我假设浏览器是否能够呈现HTML BS应该能够解析它。这个假设是否正确?
编辑2: 实际上,html是一个格式不正确的html(我在这里假设),这是我用beautifulsoup解析的html,我只是得到表格和第一个(最外面的)html。如果我手动删除多个HTML标签,只保留1个HTML标签,我可以解析BS中的表格。所以,问题是“有没有办法来解析下面的html和获取文件从最里面的数据,或者所有的表?
Some Titlesome html to display the tables.
Some other titlesome html to display even more tables.
2017-06-05
Kaustubh
+0
,如果你给的网址,并解释你正在尝试从中提取会是什么帮助。 –