本文章属于爬虫入门到精通系统教程第六讲
在爬虫入门到精通第五讲中,我们了解了如何用正则表达式去抓取我们想要的内容.这一章我们来学习如何更加简单的来获取我们想要的内容.
xpath的解释
XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。
XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是XPath很快的被开发者采用来当作小型查询语言。
XPath的基本使用
要使用xpath我们需要下载lxml,在爬虫入门到精通-环境的搭建这一章也说明怎么装,如果还没有安装的话,那就去下载安装吧
直接看代码实战吧。
from lxml import etree
# 定义一个函数,给他一个html,返回xml结构
def getxpath(html):
return etree.HTML(html)
# 下面是我们实战的第一个html
sample1 = """<html>
<head>
<title>My page</title>
</head>
<body&