Python爬虫基础-02-提取数据

最新推荐文章于 2024-08-03 14:18:54 发布

iceburg-blogs

最新推荐文章于 2024-08-03 14:18:54 发布

阅读量725

点赞数 1

分类专栏：爬虫技术文章标签： xpath BeautifulSoup4 python爬虫

本文链接：https://blog.csdn.net/eagleuniversityeye/article/details/80918633

版权

页面解析和数据提取

在第一篇博客Python爬虫入门中曾分析过通用爬虫和聚焦爬虫，通用爬虫获取整个网页，而聚焦爬虫是针对部分数据进行获取，聚焦爬虫和通用爬虫一样会将整个网页下载下来，但下载下来之后还需要进行处理—将有用的信息提取出来

网页内容根据结构类型可分为两类，非结构化的数据和结构化的数据，不同类型的数据，需要采用不同的方式处理

非结构化数据一般有文本、电话号码、邮箱地址以及HTML文件，通常使用的数据提取方法是正则表达式，XPath和CSS选择器

结构化数据一般有JSON格式文件和XML格式文件，使用的解析方法主要有JSON Path，转化成Python类型进行操作，XPath，CSS选择器和正则表达式

本文主要讲两种解析方式XPath和BeautifulSoup4

XPath (XML Path Language)是一门在XML文档中查找信息的语言，可用来在XML文档中对元素和属性进行遍历，W3School XPath教程

使用XPath前必须安装XPath的Python库：pip install lxml

XPath使用路径表达式来选取XML文档中的节点或者节点集。这些表达式和文件系统中的路径表达式非常相似

表达式	描述
nodename	选取此节点的所有子节点
/	从根节点选取
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置
.	选取当前节点
..	选取当前节点的父节点
@	选取属性

使用案例：

路径表达式	结果
bookstore	选取 bookstore 元素的所有子节点
/bookstore	选取根元素 bookstore。注释：假如路径起始于正斜杠( / )，则此路径始终代表到某元素的绝对路径！
bookstore/book	选取属于 bookstore 的子元素的所有 book 元素
//book	选取所有 book 子元素，而不管它们在文档中的位置
bookstore//book	选择属于 bookstore 元素的后代的

关注

专栏目录