Ryan Mitchell《Python网络数据采集》读书笔记 Day 01
None及错误处理
在学习的过程中,最常遇见的问题就是:
AttributeError: 'NoneType' object has no attribute 'child'
例如下面的例子
from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen("http://www.pythonscraping.com/pages/page3.html")
bs_obj = BeautifulSoup(html, features="html.parser")
for child in bs_obj.find("table", {"id": "giftlist"}).child:
print (child)
由于输入错误,误将“giftList”写成“giftlist”,导致出现AttributeError错误,花费一番周折才发现问题所在,而且,在查找答案的过程中,发现此问题不在少数,结合本书1.2.3小节对错误处理的建议,建议对None对象做判断处理避免发生AttributeError错误,可将上述代码改为:
from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen("http://www.pythonscraping.com/pages/page3.html")
bs_obj = BeautifulSoup(html, features="html.parser")
table = bs_obj.find("table", {"id": "giftlist"})
if table is None:
print ("Tag 'table' with property 'id = giftlist' was not found!")
else:
for child in table.child:
print (child)
下图是可能返回None对象的属性或方法的汇总:
find()和findAll()方法返回值的一个小差别
当目标tag不存在时,find方法返回None对象,而findAll方法返回一个空列表(empyt list)
几个tips
- findAll方法中的关键字参数keyword在一些场景中很有用,但它是BeautifulSoup在技术上做的一个冗余功能,任何用关键字参数能完成的任务,同样可以用正则字符串或者lambda表达式完成。例如,下面两行代码完全一样:
bs_obj.findAll(id = "text")
bs_obj.findAll("", {"id" : "text"})
- findAll方法中的关键字参数keyword可以让你增加一个“与”关系的过滤器来简化工作;
- 一般情况下,BeautifulSoup函数总是处理当前标签的直接(第一个)后代标签;
- 一个标签对象不能把自己当作兄弟标签,任何时候你获取一个标签的兄弟标签,都不会包含这个标签本身,其次,这个函数(获取兄弟标签的函数)只调用后面的兄弟标签;
- 如果你想让你的爬虫更稳定,最好还是让标签的选择更加具体,如果有属性,就利用标签的属性;
- 学好(理解)正则表达式(正则字符串)的关键一点,就是要记住,正则字符串是:一系列线性规则构成的字符串。