- 想必大家通过我的这篇xpath详解,已经能非常熟练的使用xpath进行页面信息的提取。
- 但是可能会在某些提取要求比较苛刻的时候不知道怎么写xpath,而退而求其次,在python里对提取的不是最终想要的结果进行二次处理。
- 所以本文就来讲讲xpath进阶操作,结合多个实战,加油!
https://gu-han-zhe.blog.csdn.net/article/details/120247868
《万字博文教你python爬虫XPath库【详解篇】》
目录:
xpath进阶操作:
-
匹配某个标签 但是不包含某个标签:
实操:匹配所有div下面的所有text,但是不包括style标签和script标签中的text。
//div[@class="box_statem"]//*[not(self::style) and not(self::script)]/text()
-
匹配最后一个。
book[last()]
- 匹配倒数第二个book元素:
book[last()-1]
-
或者查询。
//div[@id="content" or @class="cs-entry__header-info"]//sp