XPath
简介:XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言,简单的来说,就是定位元素的位置
谷歌浏览器安装xpath helper插件
链接:https://pan.baidu.com/s/1PxeirC8CeopV9Tc32H7MYA 提取码:zora
xPath helper是一款Chrome浏览器的开发者插件,安装了xPath helper后就能轻松获取HTML元素的xPath,程序员就再也不需要通过搜索html源代码,定位一些id去找到对应的位置去解析网页了。
下载xpath helper后,进入谷歌浏览器的扩展程序,将下载的文件拖进去即可,完成后右上角会显示这样一个标志,快捷键 Shift+Ctrl+x打开,在文本框输入相应元素即可定位
XPath语法菜鸟教程
实例教程
首先安装lxml库
pip install lxml
截取部分腾讯职位的信息,将下面的程序保存为tencent.html
<table class="tablelist" cellpadding="0" cellspacing="0">
<tr class="h">
<td class="l" width="374">职位名称</td>
<td>职位类别</td>
<td>人数</td>
<td>地点</td>
<td>发布时间</td>
</tr>
<tr class="even">
<td class="l square"><a target="_blank" href="position_detail.php?id=46751&keywords=&tid=87&lid=0">22989-视频云后台开发工程师</a></td>
<td>技术类</td>
<td>3</td>
<td>深圳</td>
<td>2018-12-31</td>
</tr>
<tr class="odd">
<td class="l square"><a target="_blank" href="position_detail.php?id=46752&keywords=&tid=87&lid=0">TEG02-网络设计工程师(深圳)</a></td>
<td>技术类</td>
<td>2</td>
<td>深圳</td>
<td>2018-12-31</td>
</tr>
<tr class="even">
<td class="l square"><a target="_blank" href="position_detail.php?id=46753&keywords=&tid=87&lid=0">25928-web前端开发工程师</a></td>
<td>技术类</td>
<td>1</td>
<td>深圳</td>
<td>2018-12-31</td>
</tr>
<tr class="odd">
<td class="l square"><a target="_blank" href="position_detail.php?id=46744&keywords=&tid=87&lid=0">28603-117 微信支付基础支付跨平台开发工程师(深圳)</a></td>
<td>技术类</td>
<td>1</td>
<td>深圳</td>
<td>2018-12-31</td>
</tr>