基础2·lxml库（节点解析库）的使用方法

最新推荐文章于 2024-08-13 14:27:10 发布

楼上little黑

最新推荐文章于 2024-08-13 14:27:10 发布

阅读量1.8k

点赞数 3

分类专栏：爬虫基础文章标签： lmxl调用

本文链接：https://blog.csdn.net/qq_44534317/article/details/89490802

版权

爬虫基础专栏收录该内容

6 篇文章 1 订阅

订阅专栏


调用：
from lxml import etree


解析网页代码：
html = etree.HTML(ret)


网页源码修补：
etree.tostring(html)


文本获取：
html.xpath('//<节点名称>/text()')


节点获取：

所有节点获取：
html.xpath('//*')

指定节点获取：
html.xpath('//<节点名称>')
html.xpath('//<节点名称>[1]')        #从一开始
指定子节点获取：
html.xpath('//<节点名称>/<子节点名称>')

指定孙子节点获取：
html.xpath('//<节点名称>//<孙子节点名称>')

选取父亲节点：
html.xpath('//<节点名称>/..')

属性匹配节点获取：
html.xpath('//<节点名称>[@xxx=xx]')
多属性匹配节点获取：
html.xpath('//<节点名称>[contains（@xx，xx）and @xx=xx]')

按顺序选择节点：
html.xpath('//li[1]')             #第一个li节点
html.xpath('//li[last()]')        #最后一个li节点
html.xpath('//li[post()<3]')      #第一二li节点
html.xpath('//li[last()-2]')      #倒数第三个li节点

节点轴：
html.xpath('//li/ancestor::*')              #li的所有祖先节点
html.xpath('//li/attribute::*')             #li的所有属性
html.xpath('//li/child::*')                 #li的所有直接儿子节点
html.xpath('//li/descendant::*')            #li的所有子孙节点
html.xpath('//li[1]/following::*')          #li节点后的所有节点
html.xpath('//li[1]/following_sibling::*')  #li的所有同级节点