一个html文档有几个标签树,Beautiful Soup库入门(标签树、基本元素、遍历、输出)...

本文介绍了Python的BeautifulSoup库在解析HTML文档时如何建立标签树,展示了基本的使用语句,包括获取标签、属性、遍历HTML树的方法,以及通过prettify()方法美化输出。
摘要由CSDN通过智能技术生成

本文为北理嵩天老师《Python网络爬虫与信息提取》学习笔记。

本文含有以下内容:

一、BeautifulSoup库、html文档、标签树三者间关系

二、使用Beautiful Soup库最基本的语句:

三、BeautifulSoup类的基本元素

四、HTML树形结构有三种遍历方法:

五、基于bs4库的HTML格式输出

Beautiful Soup库能够对提供给它的任何格式进行爬取,并且进行属性解析。在爬虫中,常被用来解析html和xml页面。

一、BeautifulSoup库、html文档、标签树三者间关系

Beautiful Soup库是解析、遍历、维护“标签树”的功能库。

一个html文档是由标签树构成的,下面两张图分别是链接https://python123.io/ws/demo.html对应的html页面和网页源码:

b00626d5fc39c7ed74278319c792d991.png

45785cb2e542ded9d60612e5a34b2540.png

该网页源码所对应的标签树如下图:

2d057b5cf51433ba202ee86e9d5fa1ca.png

通常认为html文档、标签树、BeautifulSoup类、三者是等价的关系。

二、使用Beautiful Soup库最基本的语句:

import requests

from bs4 import BeautifulSoup #(从bs4库导入BeautifulSoup类

url="https://python123.io/ws/demo.html"

r=requests.get(url)

demo=r.text

soup=Beaut

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值