案例描述
为了能有效地提取并利用网络信息并工作提高效率,出现了网络爬虫
利用网络爬虫实时获取城市的空气质量
• 高效地解析和处理HTML,beautifulsoup4
网页解析
• 结构化解析
• DOM (Document Object Model),树形结构
BeautifulSoup解析网页
BeautifulSoup
• 用于解析HTML或XML
• pip install beautifulsoup4
• import bs4
• 步骤
- 创建BeautifulSoup对象
- 查询节点
find,找到第一个满足条件的节点
find_all, 找到所有满足条件的节点
创建对象
• 创建BeautifulSoup对象
• objection = BeautifulSoup(
url,
html_parser, 指定解析器
enoding 指定编码格式&#x