(五)网页解析-提取结构化数据-BeautifulSoup+Xpath python+scrapy爬虫5小时入门

最新推荐文章于 2024-06-17 21:16:50 发布

weixin_40771510

最新推荐文章于 2024-06-17 21:16:50 发布

阅读量1k

点赞数 1

分类专栏：爬虫+scrapy python+scrapy爬虫5小时入门文章标签： xpath BeautifulSoup 爬虫 srapy python

本文链接：https://blog.csdn.net/weixin_40771510/article/details/98364911

版权

这篇博客介绍了网页解析中常用的两种工具——BeautifulSoup和XPath。通过BeautifulSoup的基础用法，包括简介、简单例子、指定解析器、节点对象的Tag与遍历文档树以及CSS选择器。接着讲解了XPath的简介、语法和如何选取文本。文章末尾还设有作业，用于巩固所学。

摘要由CSDN通过智能技术生成

网页解析-提取结构化数据

BeautifulSoup

简介

BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库，它的使用方式相对于正则来说更加的简单方便，常常能够节省我们大量的时间。

官方中文文档的：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

BeautifulSoup的安装也是非常方便的，pip安装即可。

pip install beautifulsoup4

简单例子

指定解析器

BeautifulSoup解析网页需要指定一个可用的解析器，以下是主要几种解析器：

解析器	使用方法	优势	劣势
Python标准库	BeautifulSoup(markup, “html.parser”)	Python的内置标准库执行速度适中文档容错能力强	Python 2.7.3 or 3.2.2)前的版本中文档容错能力差
lxml HTML 解析器	BeautifulSoup(markup, “lxml”)	速度快文档容错能力强	需要安装C语言库
lxml XML 解析器	BeautifulSoup(markup, [“lxml”, “xml”])``BeautifulSoup(markup, “xml”)	速度快唯一支持XML的解析器	需要安装C语言库
html5lib	BeautifulSoup(markup, “html5lib”)	最好的容错性以浏览器的方式解析文档生成HTML5格式的文档	速度慢不依赖外部扩展

由于这个解析的过程在大规模的爬取中是会影响到整个爬虫系统的速度的，所以推荐使用的是lxml，速度会快很多，而lxml需要单独安装：

	pip install lxml	soup = BeautifulSoup(html

最低0.47元/天解锁文章

weixin_40771510

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录