关于BeautifulSoup解析器说明

最新推荐文章于 2024-08-22 12:41:20 发布

一颗_南北

最新推荐文章于 2024-08-22 12:41:20 发布

阅读量643

点赞数 1

文章标签： python

原文链接：https://www.cnblogs.com/hls91/p/11056791.html

版权

这篇博客介绍了BeautifulSoup4在网页解析中的作用，强调了不同解析器对HTML标签解释的差异。默认使用的是'html.parser'，但推荐使用'lxml'，因其速度快且错误容忍度高。另外，'html5lib'虽然解析速度较慢，但对错误的容忍度更高。选择合适的解析器对于网页解析效率至关重要。

摘要由CSDN通过智能技术生成

转载自：关于BeautifulSoup4 解析器的说明 - 招财大龙猫 - 博客园 (cnblogs.com)

概述

# 引入库
from bs4 import BeautifulSoup
import urllib.request,urllib.error

# 获取网页
url = "https://mofanpy.com/static/scraping/basic-structure.html"
link = urllib.request.urlopen(url).read().decode("utf-8")

# 解析网页
bs = BeautifulSoup(link)