BeautifulSoup

skytelling

已于 2024-02-16 10:21:30 修改

阅读量801

点赞数 21

分类专栏：前端文章标签： beautifulsoup

于 2024-02-16 10:07:37 首次发布

本文链接：https://blog.csdn.net/m0_73660403/article/details/136126265

版权

BeautifulSoup

是一个高效的网页解析库，可以从HTML或XML文件中提取数据

支持不同的解析器，比如，对HTML解析，对XML解析，对HTML5解析

就是一个非常强大的工具，爬虫利器

一个灵感又方便的网页解析库，处理高效，支持多种解析器

利用它就不用编写正则表达式也能方便的实现网页信息的抓取

解析库

解析器	使用方法	优势	劣势
Python标准库	BeautifulSoup(markup, “html.parser”)	Python的内置标准库、执行速度适中、文档容错能力强	Python 2.7.3 or 3.2.2)前的版本中文容错能力差
lxml HTML 解析器	BeautifulSoup(markup, “lxml”)	速度快、文档容错能力强	需要安装C语言库
lxml XML 解析器	BeautifulSoup(markup, “xml”)	速度快、唯一支持XML的解析器	需要安装C语言库
html5lib	BeautifulSoup(markup, “html5lib”)	最好的容错性、以浏览器的方式解析文档、生成HTML5格式的文档	速度慢、不依赖外部扩展

安装

pip install BeautifulSoup4

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库

pip install lxml

lxml 是一种使用 Python 编写的解析库，可以迅速、灵活地处理 XML 和 HTML

基本使用

标签选择器，通过标签选择
.标签 --获取标签内容（第一个，下面除了find_all都是返回第一个）
获取文本内容
.string --获取文本内容
获取名称
.name --获取标签本身名称
获取属性的值
.attrs[] --通过属性拿属性的值
find_all()，find用法相同，但只返回第一个
使用find_all()根据标签名查找
get_text() 获取内容
使用find_all()根据属性查找
text=() 根据文本值选择

例子

h = """
<html>
    <head>
        <title>The Dormouse's story</title>
    </head>
    <body>
    <p class="title" name="dromouse"><b><span>The Dormouse's story</span></b></p>
    <p class="story">Once upon a time there were three little sisters; and their names were
    <a href="http://example.com/elsie" class="sister" id="link1"><!-- Elsie --></a>,
    <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
    <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
    and they lived at the bottom of a well.</p>
    <p class="story">...</p>
"""
soup = BeautifulSoup(h,

最低0.47元/天解锁文章

skytelling

关注

21
点赞
踩
16

收藏

觉得还不错? 一键收藏
1
评论
BeautifulSoup

推荐使用lxml解析库标签选择筛选功能弱但是速度快建议使用find()、find_all() 查询匹配单个结果或者多个结果如果对CSS选择器熟悉建议使用select()记住常用的获取属性和文本值的方法。
复制链接

扫一扫