基于bs4库的HTML内容遍历方法、格式输出和内容查找

最新推荐文章于 2020-09-24 14:38:37 发布

AI算法联盟

最新推荐文章于 2020-09-24 14:38:37 发布

阅读量972

点赞数 1

分类专栏： Python进阶学习篇

本文链接：https://blog.csdn.net/weixin_40922285/article/details/104217331

版权

一、HTML基本格式

从图中看出，HTML遍历有三种方法：下行遍历、上行遍历、平行遍历

1.标签树的下行遍历

属性	说明
.contents	子节点的列表，将<tag>所有儿子节点存入列表
.children	子节点的迭代类型，与.contents类似，用于循环遍历儿子节点
.descendants	子孙节点的迭代类型，包含所有子孙节点，用于循环遍历

代码演示

import requests 
r = requests.get("https://python123.io/ws/demo.html")
demo = r.text
from bs4 import BeautifulSoup
soup = BeautifulSoup(demo,"html.parser")  #使用html.parser解析器
soup.head  #查看head标签内容
soup.head.conte

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

AI算法联盟

关注关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
基于bs4库的HTML内容遍历方法、格式输出和内容查找

一、HTML基本格式从图中看出，HTML遍历有三种方法：下行遍历、上行遍历、平行遍历1.标签树的下行遍历属性说明 .contents 子节点的列表，将<tag>所有儿子节点存入列表 .children 子节点的迭代类型，与.contents类似，用于循环遍历儿子节点 .descendants 子孙节点的迭代类型，包含所有子孙节点...
复制链接

扫一扫