scrapy框架 获取iframe标签中的数据

本文介绍了在使用Scrapy爬虫时如何处理嵌套在iframe标签中的数据。当常规XPath无法获取iframe内的内容时,需要针对iframe的src属性发起新的请求。在获取到新页面内容后,原来的数据可以通过相同的XPath表达式正确提取。这种方法对于处理HTML中内联框架的数据十分有效。
摘要由CSDN通过智能技术生成

scrapy框架 获取iframe标签中的数据

本小菜鸟在用scrapy爬取一个网站时,使用浏览器右键copy xpath 时发现,获取不到数据,后面观察我所需的数据是在iframe标签中,但是iframe标签中的数据是不能够直接获取的,因为iframe是HTML里面嵌套HTML的一种框架,下面直接上案例:

在这里插入图片描述
我们所需数据为图中a标签中的数据,但是直接用xpath解析获取不到里面的数据
在这里插入图片描述

当我们运行xpath时,解析出来的数据为空
在这里插入图片描述
造成这个数据为空的因为是iframe是直接嵌套在html页面之中的,而嵌套iframe是指定了src的,所以我们只需要请求src之后的url即可,请求过后我们再次运行程序(还是用原来的xpath):
在这里插入图片描述
发现数据不为空

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值