Python Beautifulsoup 自学过程中遇到的一些问题

背景:目前正在自学如何编写爬虫,url的批量抓取有点复杂先跳过了,从抓取html入手学习。

在论坛找了不少信息,发现解析html的主要工具类:Beautifulsoup,多谢论坛前辈们之前分享的链接:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

正在一点一点摸索如何使用


过程中遇到了些问题,打算都记录下来。

问题1:源码实验到tag

后台报错了


一开始不知道lxml是什么东西,以为是因为没安装上,重新执行了下安装命令:pip install lxml

结果还是不行。就在要放弃的时候,在想:soup.b,到底获取的是什么?于是打印了下,发现就算没有引入tag,依然会报错。

貌似定位到是 ,下面这行代码的问题

BeautifulSoup('<b class="boldest">Extremely bold</b>')

试了下,在这个基础上,添加一个‘lxml’

BeautifulSoup('<b class="boldest">Extremely bold</b>','lxml')

然后居然就不报错了,至于为什么这么添加,是报错信息提示的,

to this:

 BeautifulSoup(YOUR_MARKUP, "lxml")

现在回想下这个问题 貌似很脑残。不过嘛,主要是英语的报错不爱看,导致的问题,以后有报错了看看日志,说不定都能解决了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值