1, 在采集网页,获取满足的条件时,比如采集一个列表的数据里面的超链接a标签,如下:
这个列表的html代码如下:
是由两个div组成的,所以要获取这两个列表的规则可以这样写:
page.getHtml().xpath("//div[@class='newsname_list' ]/ul/div | //div[@id='line_u12_0']").nodes();
用管道符|来分开。
2, 如果只是属性不同,可以or来过滤。比如要获取某一个div,这个div的class有两种情况,一种是class='listA',另外一种class='listB',获取时,可以这样写:
page.getHtml.xpath("//div[@class='listA' or @class='listB']")