xpath解析简单操作

xpath解析简单操作

test.html

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Title</title>
</head>
<body>
<ul>
    <li>
        <a href="http://baidu.com">百度</a>
    </li>
    <li>
        <a href="http://taobao.com">淘宝</a>
    </li>
    <li>
        <a href="http://douban.com">豆瓣</a>
    </li>
</ul>
<ol>
    <li>
        <a href="http://baidu.com">飞机</a>
    </li>
    <li>
        <a href="http://taobao.com">坦克</a>
    </li>
    <li>
        <a href="http://douban.com">dp</a>
    </li>
</ol>
<div class="x">xbb</div>
<div class="d">
    dbb
</div>

</body>
</html>

py代码:


import lxml.etree as etree
f=open("test.html",mode="r",encoding='utf-8')
pageSource=f.read()

#加载数据,返回element
et = etree.HTML(pageSource)
#xpath语法
res = et.xpath("/html") #/html表示根结点
res = et.xpath("/html/body") #表达式中的/表示一层html节点
res = et.xpath("/html/body/ul/li/a/text()") #text()表示提取标签中的文本信息
print(res)#['百度', '淘宝', '豆瓣']
res = et.xpath("/html/body/*/li/a/text()")#中间加一个*表示可以匹配任何字符
print(res)#['百度', '淘宝', '豆瓣', '飞机', '坦克', 'dp']
res = et.xpath("/html/body/*/li/a/@href")#@href拿到a标签里面的href属性
print(res)#['http://baidu.com', 'http://taobao.com', 'http://douban.com', 'http://baidu.com', 'http://taobao.com', 'http://douban.com']
res = et.xpath("//a/@href")#//表示任意位置的a标签
print(res)
res = et.xpath("//div[@class='x']/text()")#属性上的限定
print(res)
res = et.xpath("/html/body/ul/li")#拿到元素对象
for item in res:
    href=item.xpath("./a/@href")#"./"表示当前元素
    text = item.xpath("./a/text()")  # "./"表示当前元素
    print(text,href)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

立乱来

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值