HTML解析-Xpath

这篇博客介绍了XPath在HTML解析中的作用,解释了XPath如何在XML文档中查找信息,并提供了测试工具XMLQuire的相关信息。讨论了XPath中的节点类型、谓语、轴和步的概念,以及XPath在Python的lxml库中的应用。最后,提出了一个实践任务——爬取豆瓣电影的'本周口碑榜'。
摘要由CSDN通过智能技术生成

HTML解析-Xpath


HTML的内容返回给浏览器,浏览器就会解析它,并对它渲染。

HTML超文本表示语言,设计的初衷就是为了超越普通文本,让文本表现力更强。
XML扩展标记语言,不是为了替代HTML,而是觉得HTML的设计中包含了过多的格式,承担了一部分数据之外的任务,所以才设计了XML只用来描述数据。

HTML和XML都有结构,使用标记形成树型的嵌套结构。DOM(Document Object Model)来解析这种嵌套树型结构,浏览器往往都提供了对DOM操作的API,可以用面向对象的方式来操作DOM。

XPath

  • http://www.w3school.com.cn/xpath/index.asp中文教程

  • XPath是一门在XML文档中查找信息的语言。XPath可用来在XML文档中对元素和属性进行遍历。

  • 测试工具:XMLQuire win7+需要.net框架4.0-4.5。

  • 测试XML、XPath

    1. 测试文档

      <?xml version="1.0" encoding="utf-8"?>
      <bookstore>
      <book id="bk101">
          <author>Gambardella, Matthew</author>
          <title>XML Developer's Guide</title>
          <genre>Computer</genre>
          <price>44.95</price>
          <publish_date>2000-10-01</publish_date>
          <description>An in-depth look at creating applications 
          with XML.</description>
      </book>
      <book id="bk102" class="bookinfo even">
          <author>Ralls, Kim</author>
          <title>Midnight Rain</title>
          <genre>Fantasy</genre>
          <price>5.95</price>
          <publish_date>2000-12-16</publish_date
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值