爬虫练习(Day2)

beautifulsoup

Beautifulsoup是Python的一个库,主要是用来从网页爬取数据,可以将复杂的HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,可归纳为:Tag、NavigableString、BeautifulSoup和Comment

  • Tag 就是html中的一个个标签。像dl、dt、a、dd、p等HTML标签加上里面包括等内容就是Tag,我们可以用soup加标签名轻松的获取这些标签的内容,这些对象的类型是bs4.element.Tag。 print(soup.p)
    Tag有两个重要的属性,name(名字)和attrs(属性)
  • NavigableString 想要获得标签内的文字,可以用.string。print (soup.p.string)
  • BeautifulSoup对象表示的是一个文档的内容,大部分时候,可以把它当作Tag对象,是一个特殊的Tag,可以分别获取它的类型,名称,以及属性。
    名字:print(soup.name)类型:print(type(soup.name)) 属性:print(soup.attrs)
  • Comment对象是一个特殊类型的NavigableString对象,其输出的内容不包括注释符号。例如:< !–elsie–>。那么该NavigableSring对象会转换成Comment对象,并且会把注释符号去掉。

使用beautifulsoup提取丁香园论坛的回复内容

在这里插入图片描述

xpath

XPath即为XML路径语言(XML Path Language),它是一门在 XML 文档中查找信息的语言。

  • XPath 路径表达式
    XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。
  • XPath 标准函数
    XPath 含有超过 100 个内建的函数。这些函数用于字符串值、数值、日期和时间比较、节点和 QName 处理、序列处理、逻辑值等等。
  • XPath 在 XSLT 中使用
    XPath 是 XSLT 标准中的主要元素。如果没有 XPath 方面的知识,您就无法创建 XSLT 文档。(XSL 指扩展样式表语言(EXtensible Stylesheet Language), 它是一个 XML 文档的样式表语言。XSLT 指 XSL 转换。)
    XQuery 和 XPointer 均构建于 XPath 表达式之上。XQuery 1.0 和 XPath 2.0 共享相同的数据模型,并支持相同的函数和运算符。
  • XPath 是 W3C 标准
    XPath 于 1999 年 11 月 16 日 成为 W3C 标准。

xpath节点

在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。

xpath语法

XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的

  1. 选取节点:XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的
  2. 谓语用来查找某个特定的节点或者包含某个指定的值的节点。谓语被嵌在方括号中
  3. XPath 通配符可用来选取未知的 XML 元素
  4. 通过在路径表达式中使用"|"运算符,可以选取若干个路径
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值