1、from lxml import etree 下载架包
将变量读取为html对象,自动添加......
html=etree.HTML(wb_data)
2、解析数据,/:根节点
data1=(html.xpath('/html'))
for i in data1:
print(i)
3、//:子孙节点,后面的节点可以在任意位置
4、写具体路径('/html/body/div/ul')
5、循环某个属性('('/html/body/@class')')
6、代表当前节点...代表父节点
data5=html.xpath('/html/body/div/ul/li/a')
for i in data5:
a=i.xpath('./@href')
print(a)
7、读取某一个节点
data6=html.xpath('/html/body/div/ul')
for i in data6:
li_1=i.xpath('./li[1]')
print(li_1)
li_last=i.xpath('./li[last()]')
print(li_last)
8、带有某属性的标签
data7=html.xpath('//ul/li/a[@href="link2.html"]')
for i in data7:
print(i.text)
9、*位置节点
dat