爬虫xpath用法

这篇博客详细介绍了XPath在XML和HTML解析中的作用,以及在Python爬虫中如何使用XPath进行元素定位。内容包括XPath的节点类型、节点关系,以及Python中使用lxml库进行XPath操作的基本步骤,如获取标签内容、属性等。
摘要由CSDN通过智能技术生成

Xpath的作用:

XPath 是一门在 XML 文档中查找信息的语言。

XML文档包括:

      HTML / XHTML

XML / XML Namespaces

XPath的节点:

请看下面这个 XML 文档:

<?xml version="1.0" encoding="UTF-8"?>

<bookstore>
  <book>
    <title lang="en">Harry Potter</title>
    <author>J K. Rowling</author>
    <year>2005</year>
    <price>29.99</price>
  </book>
</bookstore>

上面的XML文档中的节点例子:

<bookstore> (文档节点)

<author>J K. Rowling</author> (
元素节点)

lang="en" (
属性节点)

节点关系

父(Parent

每个元素以及属性都有一个父。

在下面的例子中,book 元素是 titleauthoryear 以及 price 元素的父:

<book>
  <title>Harry Potter</title>
  <author>J K. Rowling</author>
  <year>2005</year>
  <price>29.99</price>
</book>

子(Children

元素节点可有零个、一个或多个子。

在下面的例子中,titleauthoryear 以及 price 元素都是 book 元素的子:

<book>
  <title>Harry Potter</title>
  <author>J K. Rowling</author>
  <year>2005</year>
  <price>29.99</price>
</book>

同胞(Sibling

拥有相同的父的节点

在下面的例子中,titleauthoryear 以及 price 元素都是同胞:

<book>
  <title>Harry Potter</title>
  <author>J K. Rowling<

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值