活动地址:CSDN21天学习挑战赛
BeautifulSoup是个工具箱,通过解析文档为用户提供抓取的数据,是小白容易上手的好工具。
使用要点如下:
1、使用BeautifulSoup(r.text,"lxml)将网页响应体的字符串转化为Soup对象,此时就可以使用soup功能。
2、提取对象方法有3种,分别为遍历文档树,搜索文档树和CSS选择器。
2.1遍历文档树的方法有:
1)获取<h3>的标签:soup.header.h3
2)获取某标签的所有子节点:soup.header.div.contents,其中contents将标签的子节点数以列表形式输出。
3)获取父节点的内容:
a_tag=soup.header.div.a
a_tag.parent
2.2搜索文档树的方法有:主要以find和find_all以及综合正则表达式使用。
2.3CSS选择器方法既可以作为遍历文档树方法来提取数据,也可以作为搜索文档树的方法提取数据。
1)通过tag标签逐层查找:soup.select("header h3")
2)通过某个tag标签下的直接子标签遍历:soup.select("header >h3")或者soup.select("div > a")