【Python】【爬虫】关于Beautiful Soup库

最新推荐文章于 2023-04-10 23:12:44 发布

flyersong_bupt

最新推荐文章于 2023-04-10 23:12:44 发布

阅读量315

点赞数

分类专栏： Python知识点

Python知识点专栏收录该内容

10 篇文章 0 订阅

订阅专栏

1、引入库

from bs4 import BeautifulSoup

import bs4

2、简单讲，BeautifulSoup对应着一个HTML/XML文档的全部内容。

BeautifulSoup的基本元素有Tag、Name（格式：tag.name，标签的名字）、Attributes（格式：tag.attrs，常常是以字典形式组织的，相关内容不会在网页上显示出来）、NavigableString（格式：tag.string，标签内非属性字符串，<>…</>中字符串，相关内容会在网页上显示出来）、Comment（标签内字符串的注释部分，也是用tag.string提取出来）。

from bs4 import BeautifulSoup 
import requests 
url = "https://python123.io/ws/demo.html"
r = requests.get(url)
demo =  r.text
soup = BeautifulSoup(demo, "html.parser")
soup.a
Out[5]:
<a class="py1" href="http://www.icourse163.org/course/BIT-268001" id="link1">Basic Python</a>
soup.p
Out[6]:
<p class="title"><b>The demo python introduces several python courses.</b></p>

可以直接使用soup.tagname 返回想要的：比如soup.a soup.p，如果有多个标签，则返回第一个。
3、下行遍历：

.contents 子节点的列表，将<tag>所有儿子节点存入列表；

.children 子节点的迭代类型，与.contents类似，用于循环遍历儿子节点；

.descendants 子孙节点的迭代类型，包含所有子孙节点，用于循环遍历。

4、上行遍历：

.parent 节点的父亲标签；

.parents 节点先辈标签的迭代类型，用于循环遍历先辈节点。

5、同辈遍历：

.next_sibling 返回按照HTML文本顺序的下一个平行节点标签；

.previous_sibling 返回按照HTML文本顺序的上一个平行节点标签；

.next_siblings 迭代类型，返回按照HTML文本顺序的后续所有平行节点标签；

.previous_siblings 迭代类型，返回按照HTML文本顺序的前续所有平行节点标签。