一个html文档有几个标签树,Beautiful Soup库入门(标签树、基本元素、遍历、输出)...

weixin_39833763

于 2021-06-08 12:30:17 发布

阅读量834

点赞数

文章标签：一个html文档有几个标签树

本文介绍了Python的BeautifulSoup库在解析HTML文档时如何建立标签树，展示了基本的使用语句，包括获取标签、属性、遍历HTML树的方法，以及通过prettify()方法美化输出。

摘要由CSDN通过智能技术生成

本文为北理嵩天老师《Python网络爬虫与信息提取》学习笔记。

本文含有以下内容：

一、BeautifulSoup库、html文档、标签树三者间关系

二、使用Beautiful Soup库最基本的语句：

三、BeautifulSoup类的基本元素

四、HTML树形结构有三种遍历方法：

五、基于bs4库的HTML格式输出

Beautiful Soup库能够对提供给它的任何格式进行爬取，并且进行属性解析。在爬虫中，常被用来解析html和xml页面。

一、BeautifulSoup库、html文档、标签树三者间关系

Beautiful Soup库是解析、遍历、维护“标签树”的功能库。

一个html文档是由标签树构成的，下面两张图分别是链接https://python123.io/ws/demo.html对应的html页面和网页源码：

该网页源码所对应的标签树如下图：

通常认为html文档、标签树、BeautifulSoup类、三者是等价的关系。

二、使用Beautiful Soup库最基本的语句：

import requests

from bs4 import BeautifulSoup #(从bs4库导入BeautifulSoup类

url="https://python123.io/ws/demo.html"

r=requests.get(url)

demo=r.text

soup=Beaut

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39833763

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python爬虫入门9：BeautifulSoup快速查找HTML内容

老猿Python

02-05

2080

本节介绍了BeautifulSoup查找类的主要方法，通过这些方法可以找到符合条件的html元素。本节文档老猿在BeautifulSoup官网的基础之上验证测试之后整理而成，文档结构大部分内容与官网内容，但有老猿验证之后的一些比较独特的内容。

速学bs4.BeautifulSoup()结构及用法

漫步量化

04-28

3961

bs4 官方文档 BeautifulSoup4被移植到bs4中，就是说使用时需要from bs4 import BeautifulSoup Beautiful Soup 4.2.0 中文文档 HTML文件与标签树 HTML文件其实就是由一组尖括号构成的标签组织起来的，每一对尖括号形成一个标签，标签之间存在上下关系，形成标签树；因此可以说Beautiful Soup库是解析、遍...

参与评论您还未登录，请先登录后发表或查看评论

标签树的三种遍历

weixin_30484739的博客

01-18

388

一、标签树的下行遍历属性说明 .contents 子节点的列表，将<tag>所有儿子节点存入列表中（只能获取下一级儿子节点） .children 子节点的迭代类型，与.contents类似，用于循环遍历儿子节点 .descendants 子孙节点的迭代类型，包含所有子孙结点，用于循环遍历（可以获取所有子节点） ...

解析Html生成标签树（一）

热门推荐

老田低代码

06-06

2万+

解析Html成标签树结构以后，我们不但可以很容易取得想要的元素，同时也很容易将Html转换成对应的XML文件。但是由于代码是在公司写的，所以没有粘贴出来的可能性，所以我只能给出大概的代码流程，具体细节描述，相信各位都很容易写出来，并且写的比我好，关键的是算法实现思想。算法的关键如下： 1. Html中每个tag都是都将作为树中的一个节点存在的，每个tag都属于树中的某一层。

一个html文档有几个标签树,HTML文档解析和DOM树的构建

weixin_36320395的博客

06-08

120

浏览器解析HTML文档生成DOM树的过程,以下是一段HTML代码，以此为例来分析解析HTML文档的原理HelloWorldpicture: A paragraph of explanatory text...豌豆资源搜索网站 https://55wd.com浏览器解析HTML文档，在中发现了和引入文件，于是向服务器请求文件，在请求和下载文件过程中将继续向下解析HTML，当引入...

一个html文档可以包含多个标签树,【精品】HTML DOM树知识梳理

weixin_39799307的博客

06-03

542

为什么会提到Dom树呢，或许它对于我们很好地理解网页各个元素，标签和控件搭配，以及各种js，css等的加载会有一些帮助。笔者在工程中遇到了一些小问题，本质就是dom树的东西掌握的不扎实。所以借此来梳理一下。1.HTML DOMok, 我们先来看一下W3school中怎么解释这个概念和结构的。W3school是一个很不错的网站，很适合初学者和基础不扎实的人。HTML DOM 定义了访问和操作 HTM...

Html生成标签树

ako262246的博客

04-14

295

http://blog.csdn.net/RonoTian/article/details/2517568 转载于:https://www.cnblogs.com/fancing/archive/2012/04/14/2446916.html

Beautiful Soup 4 Document

02-14

最后，文档提到了一个搜索和导航文档树的实例，演示了BeautifulSoup如何通过标签名、属性名和CSS类来获取特定的元素，以及如何使用这些元素进行进一步的处理。这个过程包括了使用CSS选择器、查找特定标签内的文本、...

利用Beautiful Soup解析HTML页面：Python爬虫入门教程

网络爬虫（web crawler）是一种自动获取网页信息的程序，也称为网络蜘蛛（web spider）或网络机器人（web robot）。在网页抓取过程中，网络爬虫会按照一定的规则，自动地浏览互联网上的信息，将有用的信息抓取下来，...

八种树形js标签

04-21

js的八种树形标签,集合了各种需求及代码实例

html基础-1-树形标签结构

Neptuneyut的博客

05-05

6312

文章目录html概述语法要素文档类型、字符编码和属性转义字符meta标签总体回顾参考 html概述 html的特征是基于标签识别渲染源码，更确切的说是标签树，都是从html这个根标签写起，其下常包括head和body两个处于同一级别的子标签，分别负责浏览器头部（可暂时理解为网址框）以及网页主体的设置。 <html>  <head> ...

Python爬虫 Html标签树

陈言陈语的小陈

09-11

1294

>>> r = requests.get("https://python123.io/ws/demo.html") >>> from bs4 import BeautifulSoup >>> demo = r.text >>> soup = BeautifulSoup(demo, "html.parser&qu

解析Html生成标签树（二）

老田低代码

06-13

6315

前面两篇讲解了解析Html的思想个核心算法，感谢各位提出了意见。先专门列出一文作为解释：1、ViewStates提到，“”怎么办？这个是可以解析出来的，其中解析后节点名为“td”,而“ 阿道夫骄傲了沙发如图：上面的图中，包含了上面提到的例子。回复ml_dark 兄象这种..你看看你的解析结果....解析结果如上图。

HTML文档解析之Beautiful Soup

07-27

641

html文档解析——bs4

Python爬虫之BeautifulSoup库(五)：修改文档树

bqw的博客

07-14

3957

from bs4 import BeautifulSoup 一、修改tag的名称和属性 soup = BeautifulSoup('<b class="boldest">Extremely bold</b>','lxml') tag = soup.b tag <b class="boldest">Extremely bold</b> ...

标签树的遍历

huaxuanwan的博客

04-07

136

文章目录标签树的遍历标签树的上行遍历标签树的下行遍历标签树的平行遍历标签树的遍历（菜鸟最近在学爬虫，码一点东西）标签树的上行遍历属性说明 .parent 节点的父亲标签 .parents 节点先辈标签的迭代类型，用于循环先辈节点，标签树的下行遍历属性说明 .contents 子节点的列表，将<tag>所有的节点存入列表 .children 子节点的迭代类型，与.contents类似，用于循环遍历儿子节点 .descendants 子

Beautiful Soup库

weixin_30387663的博客

07-23

152

Beautiful Soup：美味汤非常优秀的python第三方库能够对html、xml格式进行解析，并且提取其中的相关信息 Beautiful Soup可以对你提供给他的任何格式进行相关的爬取，并且可以进行树形解析使用原理：把任何你给他的文档当成一锅汤，然后煲制这锅汤一、安装： pip3 installbeautifulsoup4 HTML页面是以尖括号为主的...

python 标签树的遍历

HWP

11-18

2124

下行遍历： .contents：字节点列表，将<tag>所有儿子节点存入列表他的儿子，就是title。 body的儿子还有\n，对呀。这个也算是一个节点！（比例不对就用放大镜查看！嘿嘿） .children：子节点的迭代类型，与.contents类似，用于循环遍历儿子节点。用来循环的，作用前面已经介绍过啦。 .descendants：子孙节点的迭代类...

Python BeautifulSoup基础教程：遍历文档树与标签操作详解

- `soup.find()` 和 `soup.find_all()` 方法：前者查找第一个匹配特定标签名的元素，后者查找所有匹配的元素。例如，`soup.find_all('a')`会返回页面上所有`<a>`标签的列表。 - `.contents` 属性：返回一个列表，...