beautiful soup 4.0（bs4）基本应用(1)

最新推荐文章于 2024-03-19 20:34:59 发布

孙宝龙

最新推荐文章于 2024-03-19 20:34:59 发布

阅读量622

点赞数

分类专栏：机器学习与人工智能文章标签： python bs4 文档解析 beautifulsoup

本文链接：https://blog.csdn.net/amao1998/article/details/82585319

版权

本文介绍了Python的BeautifulSoup4库在网页文档解析中的基本应用，包括Tag对象的name和attributes属性，NavigableString的使用，BeautifulSoup对象的特性，以及Comment的处理。讲解了如何安装库，以及在HTML文档解析中不同对象的交互和操作。

摘要由CSDN通过智能技术生成

1、概述

人工智能行业的发展是以大数据为基础的，在人工智能行业当中，数据比模型本身要重要的多。从一定程度上来讲大量优质的数据可以弥补模型的缺点。而大数据所所涉及的范畴会非常的广泛，有很多在垂直行业深耕很多年的企业会积累很多的行业数据。但这种企业毕竟是少数，很多情况下我们需要自己开发爬虫从互联网上抓取数据，而爬虫程序一个非常重要的环节就是对互联网上的网页进行分析，由于网页上的资料和形式千差万别，能够从这些文档中获取自己的数据就变得尤为重要。

bs4是python库主要用于对标记语言进行分析。而在爬虫程序中使用最多的场景是分析网页文档，也就是html文档。本文重要讲解bs4的基本用法。

2、安装

可以使用下面命令在linux系统中安装beautiful soup库

pip install beautifulsoup4

同时beautiful soup4.0 在支持不同的解析器，如下表所示

解析器使用方法优势劣势

Python标准库

解析器	使用方法	优势	劣势
Python标准库	`BeautifulSoup(markup, "html.parser")`	Python的内置标准库执行速度适中文档容错能力强	Python 2.7.3 or 3.2.2)前的版本中文档容错能力差
lxml HTML 解析器	`BeautifulSoup(markup, "lxml")`	速度快文档容错能力强	需要安装C语言库
lxml XML 解析器	`BeautifulSoup(markup, ["lxml-xml"])` `BeautifulSoup(markup, "xml")`	速度快唯一支持XML的解析器

BeautifulSoup(markup, "html.parser")

Python的内置标准库
执行速度适中
文档容错能力强

Python 2.7.3 or 3.2.2)前的版本中文档容错能力差

lxml HTML 解析器

BeautifulSoup(markup, "lxml")

速度快
文档容错能力强

需要安装C语言库

lxml XML 解析器

BeautifulSoup(markup, ["lxml-xml"])

BeautifulSoup(markup, "xml")

速度快
唯一支持XML的解析器

最低0.47元/天解锁文章

孙宝龙

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
beautiful soup 4.0（bs4）基本应用(1)

1、概述人工智能行业的发展是以大数据为基础的，在人工智能行业当中，数据比模型本身要重要的多。从一定程度上来讲大量优质的数据可以弥补模型的缺点。而大数据所所涉及的范畴会非常的广泛，有很多在垂直行业深耕很多年的企业会积累很多的行业数据。但这种企业毕竟是少数，很多情况下我们需要自己开发爬虫从互联网上抓取数据，而爬虫程序一个非常重要的环节就是对互联网上的网页进行分析，由于网页上的资料和形式千差万别，能...
复制链接

扫一扫

专栏目录