Python BeautifulSoup 输入HTML 之后返回空值

最新推荐文章于 2023-12-26 18:14:28 发布

Cod_erL

最新推荐文章于 2023-12-26 18:14:28 发布

阅读量6.7k

点赞数 1

分类专栏： Python 文章标签： python html bs4 BeautifulSoup 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014510302/article/details/54574780

版权

Python 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

爬虫爬取同一个网站的同一个模板页面，有的可以成功，有的界面 bs4返回空值（非 Nona ）奇了怪纳了闷了。

自己去Google 都不知道该如何写关键字去搜索。

症状：获取的网页page 是正常的，打印也不乱码。就是到BeautifulSoup(html) 之后返回的是空值。

百般无奈写正则表达式吧。把获取值都改成了正则表达式，还好当前页面只需要获取几个值。线上运行OK 了

现在还是自己找找原因吧。

在另外一台低版本的bs4上就没有问题了在高版本的就出现了这个问题，问题锁定是在版本上

所以查看版本更新的日志，看下由于版本更新可能引起的原因。

最新版本在解析的时候最好传入解析的类型是XML 还是 HTML 还是其他的类型。

BeautifulSoup(page,"html.parser") 所以在原来的参数种传入 html.parser

问题解决.猜测原因既然新版本让传入解析类型了，所以可能由于某些HTML 的原因 bs4没有判断出传入的是HTML 无法进行解析。

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
Python BeautifulSoup 输入HTML 之后返回空值

爬虫爬取同一个网站的同一个模板页面，有的可以成功，有的界面 bs4返回空值（非 Nona ）奇了怪纳了闷了。自己去Google 都不知道该如何写关键字去搜索。症状：获取的网页page 是正常的，打印也不乱码。就是到BeautifulSoup(html) 之后返回的是空值。百般无奈写正则表达式吧。把获取值都改成了正则表达式，还好当前页面只需要获取几个值。线上运行OK 了
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。