任务描述
本关任务:在 XPath 基础实训中,介绍了 XPath 的基础知识,本关需要使用 XPath 技术来编写解析网页的程序。
相关知识
为了完成本关任务,你需要掌握 XPath 的使用。
XPath概念
XPath ,全称 XML Path Language ,即 XML 路径语言,它是一门在 XML 文档中查找信息的语言。最初是用来搜寻 XML 文档的,但同样适用于 HTML 文档的搜索。所以在做爬虫时,完全可以使用 XPath 做相应的信息抽取。 XPath 的选择功能十分强大,它提供了非常简洁明了的路径选择表达式。另外,它还提供了超过 100 个内建函数,用于字符串、数值、时间的匹配以及节点、序列的处理等,几乎所有想要定位的节点都可以用 XPath 来选择。
使用 XPath 解析爬取网页
现在演示使用 XPath 解析爬取网页,在古诗词网批量爬取古诗词的标题。
网页部分内容如下所示:
在爬取的网页界面,按 F12 可查看网页源码。网页部分源码如下所示: