《Python网络数据采集》读书笔记 Day 01

Ryan Mitchell《Python网络数据采集》读书笔记 Day 01

None及错误处理

在学习的过程中,最常遇见的问题就是:

AttributeError: 'NoneType' object has no attribute 'child'

例如下面的例子

from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen("http://www.pythonscraping.com/pages/page3.html")
bs_obj = BeautifulSoup(html, features="html.parser")

for child in bs_obj.find("table", {"id": "giftlist"}).child:
	print (child)

由于输入错误,误将“giftList”写成“giftlist”,导致出现AttributeError错误,花费一番周折才发现问题所在,而且,在查找答案的过程中,发现此问题不在少数,结合本书1.2.3小节对错误处理的建议,建议对None对象做判断处理避免发生AttributeError错误,可将上述代码改为:

from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen("http://www.pythonscraping.com/pages/page3.html")

bs_obj = BeautifulSoup(html, features="html.parser")

table = bs_obj.find("table", {"id": "giftlist"})
if table is None:
	print ("Tag 'table' with property 'id = giftlist' was not found!")
else:
	for child in table.child:
		print (child)

下图是可能返回None对象的属性或方法的汇总:
返回None对象的属性或方法汇总

find()和findAll()方法返回值的一个小差别

当目标tag不存在时,find方法返回None对象,而findAll方法返回一个空列表(empyt list)

几个tips

  • findAll方法中的关键字参数keyword在一些场景中很有用,但它是BeautifulSoup在技术上做的一个冗余功能,任何用关键字参数能完成的任务,同样可以用正则字符串或者lambda表达式完成。例如,下面两行代码完全一样:
bs_obj.findAll(id = "text")
bs_obj.findAll("", {"id" : "text"})
  • findAll方法中的关键字参数keyword可以让你增加一个“与”关系的过滤器来简化工作;
  • 一般情况下,BeautifulSoup函数总是处理当前标签的直接(第一个)后代标签;
  • 一个标签对象不能把自己当作兄弟标签,任何时候你获取一个标签的兄弟标签,都不会包含这个标签本身,其次,这个函数(获取兄弟标签的函数)只调用后面的兄弟标签;
  • 如果你想让你的爬虫更稳定,最好还是让标签的选择更加具体,如果有属性,就利用标签的属性;
  • 学好(理解)正则表达式(正则字符串)的关键一点,就是要记住,正则字符串是:一系列线性规则构成的字符串
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

steventian72

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值