中级深入--day7

长袖格子衫

已于 2023-02-27 17:59:51 修改

阅读量112

点赞数

文章标签：爬虫 python Powered by 金山文档

于 2023-02-27 17:57:20 首次发布

本文链接：https://blog.csdn.net/qq_41813416/article/details/129246730

版权

该文展示了如何利用Python的lxml库进行XPath操作，包括获取HTML中的<li>标签、类属性、特定条件的<a>标签、<span>标签，以及通过XPath表达式选取特定元素的内容和属性。

摘要由CSDN通过智能技术生成

XPath实例测试

1. 获取所有的 <li> 标签

# xpath_li.pyfrom lxml import etree

html = etree.parse('hello.html')
print type(html)  # 显示etree.parse() 返回类型

result = html.xpath('//li')

print result  # 打印<li>标签的元素集合print len(result)
print type(result)
print type(result[0])

输出结果：

<type 'lxml.etree._ElementTree'>
[<Element li at 0x1014e0e18>, <Element li at 0x1014e0ef0>, <Element li at 0x1014e0f38>, <Element li at 0x1014e0f80>, <Element li at 0x1014e0fc8>]
5
<type 'list'>
<type 'lxml.etree._Element'>

2. 继续获取<li> 标签的所有 class属性

# xpath_li.pyfrom lxml import etree

html = etree.parse('hello.html')
result = html.xpath('//li/@class')

print result

运行结果

['item-0', 'item-1', 'item-inactive', 'item-1', 'item-0']

3. 继续获取<li>标签下hre 为 link1.html 的 <a> 标签

# xpath_li.pyfrom lxml import etree

html = etree.parse('hello.html')
result = html.xpath('//li/a[@href="link1.html"]')

print result

运行结果

[<Element a at 0x10ffaae18>]

4. 获取<li> 标签下的所有 <span> 标签

# xpath_li.pyfrom lxml import etree

html = etree.parse('hello.html')

#result = html.xpath('//li/span')#注意这么写是不对的：#因为 / 是用来获取子元素的，而 <span> 并不是 <li> 的子元素，所以，要用双斜杠

result = html.xpath('//li//span')

print result

运行结果

[<Element span at 0x10d698e18>]

5. 获取 <li> 标签下的<a>标签里的所有 class

# xpath_li.pyfrom lxml import etree

html = etree.parse('hello.html')
result = html.xpath('//li/a//@class')

print result

运行结果

['blod']

6. 获取最后一个 <li> 的 <a> 的 href

# xpath_li.pyfrom lxml import etree

html = etree.parse('hello.html')

result = html.xpath('//li[last()]/a/@href')
# 谓语 [last()] 可以找到最后一个元素print result

运行结果

['link5.html']

7. 获取倒数第二个元素的内容

# xpath_li.pyfrom lxml import etree

html = etree.parse('hello.html')
result = html.xpath('//li[last()-1]/a')

# text 方法可以获取元素内容print result[0].text

运行结果

fourth item

8. 获取 class 值为 bold 的标签名

# xpath_li.pyfrom lxml import etree

html = etree.parse('hello.html')

result = html.xpath('//*[@class="bold"]')

# tag方法可以获取标签名print result[0].tag

运行结果

span

长袖格子衫

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫