python爬虫学习 第三章网页数据的解析提取

本文详细介绍了如何利用Xpath在Python的lxml库中执行各种操作,包括提取节点、子节点、属性查找、文本内容获取、多条件匹配和节点轴选择,帮助读者掌握XPath在网页抓取中的强大功能。
摘要由CSDN通过智能技术生成

一:Xpath的使用

安装lxml库

pip install lxml

1.提取所有节点或指定节点

result = html.xpath('//*) ('//li/)

2.提取子节点或者子孙节点

result = html.xpath('//li/a'). ('//ul//a')

3.提取父节点 首先选中href属性为link4.html的a节点,然后获取其父节点,再获取父节点的class属性

result = html.xpath('//a[@href="link4.html"]/../@class')

result = html.xpath('//a[@href="link4.html"]/parent::*/@class')

4. 属性匹配

Result = html.xpath('//li[@class = "item-0"]')

5.文本获取

 Result = html.xpath('//li[@class = "item-o"/a/text()')

result = html.xpath('//li[@class = "item-o"//text()')

6.属性获取

Result = html.xpath('//li/a/@href')

7.属性多值匹配 第一个参数传入属性名称,第二个参数传入属性值

Result =html.xpath('//li[contains(@class,"li")]/a/text()')

8.多属性匹配 同时考察class 和name 的属性 class属性里面包含li字符串 name属性为item字符串

Result = html.xpath('//li[cotains(@class,"li')] and @name ="items']/a/text()')

9.按序选择

Result = html.xpath('//li[1]/a/text/()')

10.节点轴选择

result = html.xpath('//li[1]ancestor::*')

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值