背景:目前正在自学如何编写爬虫,url的批量抓取有点复杂先跳过了,从抓取html入手学习。
在论坛找了不少信息,发现解析html的主要工具类:Beautifulsoup,多谢论坛前辈们之前分享的链接:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
正在一点一点摸索如何使用
过程中遇到了些问题,打算都记录下来。
问题1:源码实验到tag
后台报错了
一开始不知道lxml是什么东西,以为是因为没安装上,重新执行了下安装命令:pip install lxml
结果还是不行。就在要放弃的时候,在想:soup.b,到底获取的是什么?于是打印了下,发现就算没有引入tag,依然会报错。
貌似定位到是 ,下面这行代码的问题
BeautifulSoup('<b class="boldest">Extremely bold</b>')
试了下,在这个基础上,添加一个‘lxml’
BeautifulSoup('<b class="boldest">Extremely bold</b>','lxml')
然后居然就不报错了,至于为什么这么添加,是报错信息提示的,
to this:
BeautifulSoup(YOUR_MARKUP, "lxml")
现在回想下这个问题 貌似很脑残。不过嘛,主要是英语的报错不爱看,导致的问题,以后有报错了看看日志,说不定都能解决了