立即学习:https://edu.csdn.net/course/play/24756/280676?utm_source=blogtoedu
from lxml import etree
html=etree.parse('F:/python/Internet_request/./hello.html')
(1)#获取所有li标签
result=html.xpath('//li')
#遍历打印
for i in result:
print(etree.tostring(i))
(2)#获取所有li元素下class属性的值
result=html.xpath('//li/@class')
print(result)
(3)获取li标签下href为www.baidu.com的a标签:
result=html.xpath('//li/a[@href="www.baidu.com"]')
print(result)
(4)获取li标签下所有span标签:(如果是单斜杠,匹配的是直接子节点)
result=html.xpath('//li//span')
print(result)
(5)获取li标签下的a标签里的所有class:
result=html.xpath('//li/a//@class')
print(result)
(6)获取最后一个li的a的href属性对应的值:
result=html.xpath('//li[last()]/a/@href')
print(result)
(7) 获取倒数第二个li元素的内容:
result=html.xpath('//li[last()-1]/a')
print(result[0].text)
(8) 获取倒数第二个li元素的内容的第二种方式:
result=html.xpath('//li[last()-1]/a/text()')
print(result)