爬虫练习(Day2)

最新推荐文章于 2024-07-07 11:44:21 发布

我就叫小灰灰

最新推荐文章于 2024-07-07 11:44:21 发布

阅读量306

点赞数

本文链接：https://blog.csdn.net/weixin_43314778/article/details/89163089

版权

Beautifulsoup是Python的一个库，主要是用来从网页爬取数据，可以将复杂的HTML文档转换成一个复杂的树形结构，每个节点都是Python对象，可归纳为：Tag、NavigableString、BeautifulSoup和Comment

Tag 就是html中的一个个标签。像dl、dt、a、dd、p等HTML标签加上里面包括等内容就是Tag，我们可以用soup加标签名轻松的获取这些标签的内容，这些对象的类型是bs4.element.Tag。 print(soup.p)
Tag有两个重要的属性，name（名字）和attrs（属性）
NavigableString 想要获得标签内的文字，可以用.string。print （soup.p.string）
BeautifulSoup对象表示的是一个文档的内容，大部分时候，可以把它当作Tag对象，是一个特殊的Tag，可以分别获取它的类型，名称，以及属性。
名字：print(soup.name)类型：print(type(soup.name)) 属性：print(soup.attrs)
Comment对象是一个特殊类型的NavigableString对象，其输出的内容不包括注释符号。例如：< !–elsie–>。那么该NavigableSring对象会转换成Comment对象，并且会把注释符号去掉。

在这里插入图片描述

XPath即为XML路径语言（XML Path Language），它是一门在 XML 文档中查找信息的语言。

XPath 路径表达式
XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。
XPath 标准函数
XPath 含有超过 100 个内建的函数。这些函数用于字符串值、数值、日期和时间比较、节点和 QName 处理、序列处理、逻辑值等等。
XPath 在 XSLT 中使用
XPath 是 XSLT 标准中的主要元素。如果没有 XPath 方面的知识，您就无法创建 XSLT 文档。(XSL 指扩展样式表语言（EXtensible Stylesheet Language）, 它是一个 XML 文档的样式表语言。XSLT 指 XSL 转换。)
XQuery 和 XPointer 均构建于 XPath 表达式之上。XQuery 1.0 和 XPath 2.0 共享相同的数据模型，并支持相同的函数和运算符。
XPath 是 W3C 标准
XPath 于 1999 年 11 月 16 日成为 W3C 标准。