bs4 '4.8.2'版本html解析错误（使用findall方法查找link标签，返回中包含style标签）

最新推荐文章于 2024-05-20 22:30:00 发布

RAVEN_1452

最新推荐文章于 2024-05-20 22:30:00 发布

阅读量688

点赞数

分类专栏： bs4 beautifulsoup

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/amber_o0k/article/details/104199417

版权

bs4 同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

大概率因为页面存在注释，例如：

所以返回的列表中错误包含别的标签，而不是查找的标签。

但是标签的个数和页面对得上。

html.parser需要背这个锅。

使用html5lib，可以正常解析。但需要额外安装，pip install html5lib

beautifulsoup(markup,'html5lib')

lxml库也可以解决这个问题，但安装较慢比较拼人品。pip install lxml

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
bs4 '4.8.2'版本html解析错误（使用findall方法查找link标签，返回中包含style标签）

大概率因为页面存在注释，例如：<!--[if IE 8]><style index="index" data-compr...
复制链接

扫一扫

专栏目录

RAVEN_1452 CSDN认证博客专家 CSDN认证企业博客

码龄7年

171: 原创

6万+: 周排名

1万+: 总排名

24万+: 访问

: 等级

3006: 积分

110: 粉丝

216: 获赞

44: 评论

321: 收藏

私信

关注

分类专栏

rsa 1篇
技巧 55篇
ctf 2篇
tensorflow 1篇
tcp/ip 1篇
http 2篇
笔记
xss 1篇
算法 1篇
bs4 1篇
beautifulsoup 1篇
wifi 1篇
cmd 2篇
命令 1篇
windows 6篇
dns 2篇
js 3篇
javascript 3篇
github 1篇
vs 1篇
vs code 1篇
编码 1篇
python 28篇
css 1篇
sqlite3 2篇
class 1篇
类 2篇
excel 1篇

最新评论

win11 浏览器最大化后遮挡任务栏
今夜是否是黑夜: 好神奇，真的解决了
win11 浏览器最大化后遮挡任务栏
望山观海: 这都能行，这不查一下谁知道
攻防世界crypto【江苏工匠杯】rsarsa
jo凌jo簋: 感谢师傅!已经解决了!感谢感谢
攻防世界crypto【江苏工匠杯】rsarsa
RAVEN_1452: 附件代码在sagemath里运行。那些值是你nc到题目的服务器，由服务器给出的。靶机就是运行题目的服务器。
攻防世界crypto【江苏工匠杯】rsarsa
jo凌jo簋: 题目里给的附件怎么使用？这个题目的p1，ct,n和c的值在哪里得到啊？这个靶机的环境是干什么的，有什么作用？希望师傅能解答一下，谢谢

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。