BeautifulSoup不能正确解析或找不到特定标签的解决方案

近期在使用BeautifulSoup对网页进行解析,想要获取网页的数据,如下代码:

soup = BeautifulSoup( resp.text, 'lxml' )

结果发现根据特定的id找不到对应那个标签,还出现找到了标签,但是标签结构破坏的情况,比如下面这个例子:
在这里插入图片描述
这是网页内容,我要循环每个tr标签,得到th里的文本,关键代码如下:
在这里插入图片描述
最终输入出的结果为:
在这里插入图片描述
可以看到前面输出的内容都没有错,而到“张自忠路”这里,竟然把标签也打印出来了,不难发现,因为这里的标签缺失了“<”,所以没有找到th的截止标签,而让BeautifulSoup认为这一整块都是th标签里的内容。为什么会出现这样的情况呢?
在网上查了一下资料,可能是因为我使用的解析器为“lxml”,需要解析的文档太大,解析器的缓存不够而导致了数据的丢失。
所以二话不说,把解析器换成“html.parser”,如下代码:

soup = BeautifulSoup( resp.text, 'html.parser' )

问题解决!

另外还在网上找到一些BeautifulSoup常见的解析器:
在这里插入图片描述

  • 4
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值