风火编程--python爬虫几个xpath解析方法

风火编程

已于 2023-11-17 15:47:27 修改

阅读量268

点赞数

分类专栏： python应用文章标签： python xpath 爬虫兄弟标签根据内容

于 2018-11-07 23:24:54 首次发布

本文链接：https://blog.csdn.net/weixin_42620314/article/details/82902507

版权

python应用专栏收录该内容

20 篇文章 0 订阅

订阅专栏

python爬虫解析xpath

requests获取的响应体

from lxml import etree
html = etree.HTML(response.text) # 二进制类型用.content
result = html.xpath(“expression”),
返回list, 一个用[0]

selenium获取的响应体

result = response.xpath(“expression”).xtract(),
返回list, 一个用extract_first()

一些特殊的解析

    # 根据文本内容取标签的下一个弟标签的文本
     driver.find_elements_by_xpath(' /span[text()="持续时间:"]/following-sibling::*[1]/text()')
     # 上一个节点     preceding-sibling::a/ttext()
     # 父节点    /parent::li/text()
     # 祖先节点 /ancestor::*[2]/text()
  # 模糊查询
driver.find_elements_by_xpath("//span[contains(@class,'center_close')]")
# 将节点下的所有文本拼接成字符串
string(node())
#取节点下的第一个文本
string(node()/text())

解析式的或连接

html.xpath('//tr[@class="odd"] | //tr[@class="even"]')

或者

 html.xpath('//tr[@class="even" or @class="odd"]')

不是

 html.xpath('//tr[not(@class="even")]')

补全默认标签

parser = etree.HTMLParser(enconding='utf-8')
html = etree.HTML(text, parser=parser)

标签赚字符串

s = etree.tostring(div).decode()

参考链接

https://www.cnblogs.com/songshu120/p/5182043.html

风火编程

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
风火编程--python爬虫几个xpath解析方法

python爬虫解析xpath# 根据文本内容取标签的下一个弟标签的文本/span[text()=&amp;amp;amp;amp;quot;持续时间:&amp;amp;amp;amp;quot;]/following-sibling::*[1]/text()
复制链接

扫一扫

专栏目录