Python（应用）网页爬虫之BS4(Beautiful Soup)用法及案例

 shammy

已于 2022-04-25 09:19:52 修改

阅读量4.1k

点赞数 4

分类专栏： PYTHON 文章标签： python 爬虫

于 2021-02-01 13:39:13 首次发布

本文链接：https://blog.csdn.net/shammy_feng/article/details/113511302

版权

本文介绍了Python的BeautifulSoup库，用于网页解析，无需正则表达式即可方便提取信息。通过安装bs4库，结合HTTP请求头，演示了从豆瓣电影网站抓取数据的案例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、Beautiful Soup
BeautifulSoup库是灵活又方便的网页解析库，处理高效，支持多种解析器。利用它不用编写正则表达式即可方便地实现网页信息的提取。
安装：pip3 install beautifulsoup4
解析库

解析器	使用方法	优势	劣势
Python标准库	BeautifulSoup(markup, “html.parser”)	Python的内置标准库、执行速度适中、文档容错能力强	Python 2.7.3 or 3.2.2)前的版本中文容错能力差
lxml HTML 解析器	BeautifulSoup(markup, “lxml”)	速度快、文档容错能力强	需要安装C语言库
lxml XML 解析器	BeautifulSoup(markup, “xml”)	速度快、唯一支持XML的解析器	需要安装C语言库
html5lib	BeautifulSoup(markup, “html5lib”)	最好的容错性、以浏览器的方式解析文档、生成HTML5格式的文档	速度慢、不依赖外部扩展
二、案例

案例一：豆瓣电影网站
1、上脚本

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2021/02/01 10:00
# @Author  :
# @Site    : 
# @File    : 
# @Software: PyCharm

import requests
from bs4 import BeautifulSoup

url = "https://movie.douban.com/cinema/nowplaying/xian/"

# 获取页面信息
#加上请求头，模拟成浏览器取访问网

最低0.47元/天解锁文章