XPath Helper安装及使用

引语

在爬虫各个应用场景下,数据解析为其中重要的一环。而在数据解析中,BeautifulSoup、Xpath以及正则表达式等多种方法均为利器,在实际应用中根据不同场景选择不同的方法是最高效的,但是对各个方法的掌握程度要求很高。事实上,精通一种方法就已经满足需要了,再此基础之上,用辅助工具帮助理解提高效率。
本文将提供给“爬虫大师们”使用xpath方法的辅助工具XPath Helper插件。

XPath Helper简介

XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言。XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。
XPath Helper是一款专用于chrome内核浏览器的实用型爬虫网页解析工具。XPath Helper插件功能强劲,支持进行XPath查询功能。XPath Help插件可以帮助用户在各类网站上通过按shift键选择想要查看的页面元素来提取查询其代码,同时还支持用户对查询出来的代码进行编辑,而编辑出的结果将立即显示在旁边的结果框中。

XPath Helper安装方法

  1. 根据下面的链接将文件下载到本地。
    链接:https://pan.baidu.com/s/18_Ws5qjHW9skhE1cb1jtYA
    提取码:x0no
  2. 下载完成后,将文件的后缀名改为“.zip”,并进行解压。
  3. 解压之后有两个文件,将文件名为“2.0.2_0.crx”后缀名改为“.zip”,并对其进行二次解压。
    至此,所有弹出的提示语句全部选择 是
  4. 二次解压完成,获得如下图所示的文件夹。如果红色框内文件夹如图所示,将“_metadata”改为“metadata”。如果默认就是“metadata”则不需要做任何操作。
  5. 进入自己对应的浏览器。在此,我以Google浏览器为基础操作。
    点击谷歌右上角的三个点的按钮
    选择更多工具——>选择扩展程序
    进入,打开开发者模式,加载已解压的扩展程序,选择相应的已解压的文件,确认!
    重启浏览器,确认可以正常使用
  6. 如下图表示创建成功。在这里插入图片描述

XPath Helper简单使用方法

作用

  1. 获取页面元素的xpath地址。
  2. 验证用户自己写的xpath地址是否正确。

使用方法

  • 打开/关闭XPath Helper快捷键:Ctrl+Shift+x
  • 打开Xpath Helper后的结果如下图所示
    在这里插入图片描述
  • 打开该插件的情况下,按住Shift在页面内进行移动,鼠标所经过之处会有黄色方框显示,下图为在CSDN首页,选中标题引导框的结果。左侧的query框内即为选中内容的xpath地址。
    在这里插入图片描述
  • 如果作为验证的方法,在query框内写入自己写入xpath地址,看result框内是否是自己想要抓取的元素,如果不正确,可以实时在query内进行修改,直至获得正确xpath地址。
    在这里插入图片描述
  • 45
    点赞
  • 85
    收藏
    觉得还不错? 一键收藏
  • 23
    评论
提取,编辑和轻松评估XPath查询。 XPath的助手很容易提取,编辑,并在任何网页评估XPath查询。 重要提示:安装此扩展后,必须重新加载任何现有的选项卡或重新启动Chrome浏览器扩展工作。 说明: 1.打开一个新的标签,并导航到任何网页。 2.按Ctrl-Shift键-X(或OS X命令移-X),或单击工具栏上的XPath的助手按钮,以打开XPath助手控制台。 3.按住Shift键将鼠标悬停在页面上的元素。查询框将不断更新,以显示鼠标指针下方的元件XPath查询,结果框将显示当前查询的结果。 4.如果需要,请在控制台直接编辑XPath查询。结果框会立即反映更改。 5.重复步骤(2)关闭控制台。 如果控制台在你的方式获得,按住Shift键,然后将鼠标移动到它; 它会移动到页面的相对侧。 一个忠告:当渲染HTML表格,浏览器插入人工<TBODY>标记到DOM,这将在随后通过该扩展提取查询显示出来。 Extract, edit, and evaluate XPath queries with ease. XPath Helper makes it easy to extract, edit, and evaluate XPath queries on any webpage. IMPORTANT: After installing this extension, you must reload any existing tabs or restart Chrome for the extension to work. Instructions: 1. Open a new tab and navigate to any webpage. 2. Hit Ctrl-Shift-X (or Command-Shift-X on OS X), or click the XPath Helper button in the toolbar, to open the XPath Helper console. 3. Hold down Shift as you mouse over elements on the page. The query box will continuously update to show the XPath query for the element below the mouse pointer, and the results box will show the results for the current query. 4. If desired, edit the XPath query directly in the console. The results box will immediately reflect your changes. 5. Repeat step (2) to close the console. If the console gets in your way, hold down Shift and then move your mouse over it; it will move to the opposite side of the page. One word of caution: When rendering HTML tables, Chrome inserts artificial <tbody> tags into the DOM, which will consequently show up in queries extracted by this extension.
评论 23
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值