html,XPath 学习笔记

原创 2016年05月31日 02:54:09

XPath

1. 

Chrome和傲游浏览器的Console中执行的Xpath代码有些区别。

例如,要提取a tag中的某个属性,在傲游中是这样写:

$x('//a/@href')

而在Chrome中则是

$x('//a')[0].getAttribute('href')


2:// 和 /

在XPath中,双斜线 "//" 表示收集在Hierarchy中任意位置的某类型的元素。比如 “//a” 就表示此文件中的所有 a tag。

而单斜线 "/" 则表示属于某一个tag下一级的tag,比如 "//div/p" 就表示直接位于所有div下一级的p tag。


3:*

用 '*' 来选择某一层下的所有元素.

例:$x('//div/*')


4:select tags with consitions

$x('//a[@href]') # a tags with href attribute

$x('//a[@href="http://www.iana.org/domains/example"]') # a tags whose href is as above

$x('//a[contains(@href, "iana")]') # a tags whose href contains "iana"

$x('//a[starts-with(@href, "http://www.")]') # a tags whose href start with "http://www."

$x('//a[not(contains(@href, "abc"))]') # a tags whose href do not contain "abc"

5 更多XPath命令请见

http://www.w3schools.com/xsl/xsl_functions.asp



6 在网页源码处右键Copy XPath其实是个非常实用的办法。




Python爬虫学习笔记(3)-XPath与多线程爬虫

Python爬虫学习笔记(3)-XPath与多线程爬虫标签(空格分隔): python 多线程 爬虫...

JAVA学习笔记_XML解析及XPath表达式

1.DOM解析:基于DOM模型解析xml文件。一次性把xml文件加载进内存,然后在内存中构建Document树。比较消耗内存,并不适合读取容量大的xml文件。 1)DOM解析的原理:  xml解析...

XML学习笔记 4. xpath

Xpath 使用

Xpath学习笔记

在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档节点(或称为根节点)。 Harry Potter 29.99 Learning XML ...

Python 爬虫学习笔记二: xpath 模块

Python 爬虫学习笔记二: xpath from lxml 首先应该知道的是xpath 只是一个元素选择器, 在python 的另外一个库lxml 中, 想要使用xpath 必须首先下载lxml ...

RobotFramework自动化学习笔记01-利用xpath定位元素

在rf中,利用selinum2的关键字进行用例编写时,很多关键字的参数是html元素的定位标识。 最简单的方式,是通过id 或name来描述元素定位信息,如 click  button    id...

XPATH学习笔记

xpath有7种类型的节点 元素 属性 文本 命名空间 处理指令 注释 文档(根)节点 xpath路径表达式 nodename 选取此节点的所有子节点 / 从根节点选取 // 从匹配选择的当前节...

关于xpath的学习笔记

XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言。XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。起初 XPath 的提出的初衷是...

XPath学习笔记

一、XPth是干什么的? XPath是W3C的一个标准。它最主要的目的是为了在XML1.0或XML1.1文档节点树中定位节点所设计。 XPath是一种表达式语言,在XML中查找信息,它的返回值可能是节...
  • snow_7
  • snow_7
  • 2016年08月01日 15:08
  • 209

Xpath路径学习笔记

xpath使用路径表达式来获取xml文档中的节点和节点集合 节点是沿着路径(path)或者(steps)来获取的。 下面给出最常用的路径表达式 表达式 ...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:html,XPath 学习笔记
举报原因:
原因补充:

(最多只允许输入30个字)