一、HTML基本格式
从图中看出,HTML遍历有三种方法:下行遍历、上行遍历、平行遍历
1.标签树的下行遍历
属性 | 说明 |
.contents | 子节点的列表,将<tag>所有儿子节点存入列表 |
.children | 子节点的迭代类型,与.contents类似,用于循环遍历儿子节点 |
.descendants | 子孙节点的迭代类型,包含所有子孙节点,用于循环遍历 |
代码演示
import requests
r = requests.get("https://python123.io/ws/demo.html")
demo = r.text
from bs4 import BeautifulSoup
soup = BeautifulSoup(demo,"html.parser") #使用html.parser解析器
soup.head #查看head标签内容
soup.head.conte