《Python网络数据采集》读书笔记 Day 01

最新推荐文章于 2024-05-31 16:50:07 发布

steventian72

最新推荐文章于 2024-05-31 16:50:07 发布

阅读量170

点赞数

分类专栏： BeautifulSoup python高级编程

本文链接：https://blog.csdn.net/steventian72/article/details/87381358

版权

python高级编程同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

BeautifulSoup

3 篇文章 0 订阅

订阅专栏

Ryan Mitchell《Python网络数据采集》读书笔记 Day 01

None及错误处理

在学习的过程中，最常遇见的问题就是：

AttributeError: 'NoneType' object has no attribute 'child'

例如下面的例子

from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen("http://www.pythonscraping.com/pages/page3.html")
bs_obj = BeautifulSoup(html, features="html.parser")

for child in bs_obj.find("table", {"id": "giftlist"}).child:
	print (child)

由于输入错误，误将“giftList”写成“giftlist”，导致出现AttributeError错误，花费一番周折才发现问题所在，而且，在查找答案的过程中，发现此问题不在少数，结合本书1.2.3小节对错误处理的建议，建议对None对象做判断处理避免发生AttributeError错误，可将上述代码改为：

from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen("http://www.pythonscraping.com/pages/page3.html")

bs_obj = BeautifulSoup(html, features="html.parser")

table = bs_obj.find("table", {"id": "giftlist"})
if table is None:
	print ("Tag 'table' with property 'id = giftlist' was not found!")
else:
	for child in table.child:
		print (child)

下图是可能返回None对象的属性或方法的汇总：
返回None对象的属性或方法汇总

find()和findAll()方法返回值的一个小差别

当目标tag不存在时，find方法返回None对象，而findAll方法返回一个空列表（empyt list）

几个tips

findAll方法中的关键字参数keyword在一些场景中很有用，但它是BeautifulSoup在技术上做的一个冗余功能，任何用关键字参数能完成的任务，同样可以用正则字符串或者lambda表达式完成。例如，下面两行代码完全一样：

bs_obj.findAll(id = "text")
bs_obj.findAll("", {"id" : "text"})

findAll方法中的关键字参数keyword可以让你增加一个“与”关系的过滤器来简化工作；
一般情况下，BeautifulSoup函数总是处理当前标签的直接（第一个）后代标签；
一个标签对象不能把自己当作兄弟标签，任何时候你获取一个标签的兄弟标签，都不会包含这个标签本身，其次，这个函数（获取兄弟标签的函数）只调用后面的兄弟标签；
如果你想让你的爬虫更稳定，最好还是让标签的选择更加具体，如果有属性，就利用标签的属性；
学好（理解）正则表达式（正则字符串）的关键一点，就是要记住，正则字符串是：一系列线性规则构成的字符串。

steventian72

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
《Python网络数据采集》读书笔记 Day 01

Ryan Mitchell《Python网络数据采集》读书笔记 Day 01None及错误处理在学习的过程中，最常遇见的问题就是：AttributeError: 'NoneType' object has no attribute 'child'例如下面的例子from urllib.request import urlopenfrom bs4 import BeautifulSoup...
复制链接

扫一扫