本文为北理嵩天老师《Python网络爬虫与信息提取》学习笔记。
本文含有以下内容:
一、BeautifulSoup库、html文档、标签树三者间关系
二、使用Beautiful Soup库最基本的语句:
三、BeautifulSoup类的基本元素
四、HTML树形结构有三种遍历方法:
五、基于bs4库的HTML格式输出
Beautiful Soup库能够对提供给它的任何格式进行爬取,并且进行属性解析。在爬虫中,常被用来解析html和xml页面。
一、BeautifulSoup库、html文档、标签树三者间关系
Beautiful Soup库是解析、遍历、维护“标签树”的功能库。
一个html文档是由标签树构成的,下面两张图分别是链接https://python123.io/ws/demo.html对应的html页面和网页源码:
该网页源码所对应的标签树如下图:
通常认为html文档、标签树、BeautifulSoup类、三者是等价的关系。
二、使用Beautiful Soup库最基本的语句:
import requests
from bs4 import BeautifulSoup #(从bs4库导入BeautifulSoup类
url="https://python123.io/ws/demo.html"
r=requests.get(url)
demo=r.text
soup=Beaut