7.零基础系统学习Python爬虫之HTML详解

☞☞☞点击查看更多优秀Python博客☜☜☜

HTML标签

HTML基本格式:
在这里插入图片描述
遍历方法
在这里插入图片描述

下行遍历

属性说明
.contents将该标签所有的儿子节点存入列表
.children子节点的迭代类型,和contents类似,用于遍历儿子节点
.descendants子孙节点的迭代类型,包含所有的子孙跌点,用于循环遍历
import requests
from bs4 import BeautifulSoup

r=requests.get('http://baidu.com')
demo=r.text
soup=BeautifulSoup(demo,'html.parser')

print(soup.contents)# 获取整个标签树的儿子节点
print(soup.body.content)#返回标签树的body标签下的节点

print(soup.head)#返回head标签
print(len(soup.body.content))#输出body标签儿子节点的个数

print(soup.body.content[1])#获取body下第一个子标签


soup=BeautifulSoup(demo,'html.parser')
for child in soup.body.children:#遍历儿子节点
    print(child)
    
for child in soup.body.descendants:#遍历子孙节点
    print(child)

上行遍历

属性说明
.parent节点的父亲标签
.parents节点的先辈标签的迭代类型,用于循环遍历先辈节点
import requests
from bs4 import BeautifulSoup

r=requests.get('http://baidu.com')
demo=r.text
soup=BeautifulSoup(demo,'html.parser')

for parent in soup.a.parents:#遍历先辈的信息
    if parent is None:
        print(parent)
    else:
        print(parent.name)

平行遍历

属性说明
.next_sibling返回HTML文本顺序的下一个平行标签
.previous_sibling返回HTML文本顺序的上一个平行标签
.next_siblings迭代类型,返回HTML文本顺序后续所有的平行标签
.pervious_siblings迭代类型,返回HTML文本顺序前面所有的平行标签

有层次感的输出-prettify()

import requests
from bs4 import BeautifulSoup

r=requests.get('http://baidu.com')
demo=r.text
soup=BeautifulSoup(demo,'html.parser')
print(soup.prettify())

提示学习来源:北京理工大学慕课

**文章导航:**

零基础学Python教程

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值