Scrapy+Selenium 获取iframe下的document

最新推荐文章于 2024-07-24 14:14:36 发布

所谓向日葵族

最新推荐文章于 2024-07-24 14:14:36 发布

阅读量2.3k

点赞数

分类专栏： Scrapy 文章标签： selenium

本文链接：https://blog.csdn.net/weixin_38601833/article/details/103807512

版权

本文介绍了如何在Scrapy中利用Selenium获取iframe框架内的网页元素，特别是针对XPath无法直接获取的情况，通过执行JavaScript来获取iframe下的document，从而实现对标题、源和标签落地页的抓取。建议读者具备Selenium基础，并在浏览器控制台预测试JavaScript代码。

摘要由CSDN通过智能技术生成

需求：获取iframe h3下的标题，img的源，及a标签的落地页

需要先熟悉Selenium的同学：点击学习

使用xpath获取iframe下的内容为空，如图

<iframe data-v-5a33f2b6="" id="preview-iframe-18769" class="idea-preview-iframe" style="height: 259.817px;" frameborder="0">

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

所谓向日葵族

关注关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

（1）selenium之DOM(documet object module)

qq_37294982的博客

07-27

345

进入浏览器，F12打开代码页面，进入console 1.查找元素 document.getElementById(元素ID值) document.getElementByClassName(元素class值) document.getElementByTagName(标签名) document.querySelector(css表达式） document.querySelectorAll(css表...

Scrapy+Selenium爬取动态渲染网站

所谓向日葵族

07-18

9121

目录 1.简介 2.安装 Selenium 3.安装驱动 3.1 Chrome 3.2 Firefox 3.3 其它浏览器驱动下载 4.Selenium使用 4.1 Chrome 配置 4.2 Firefox 配置 4.3 不显示打开浏览器的界面 4.4 禁用浏览器弹窗 4.5 driver属性和方法 1.简介 Selenium是一个用于Web应用程序测试的工具。直接运行在浏...

1 条评论您还未登录，请先登录后发表或查看评论

selenium iframe元素定位

MTbaby的博客

08-25

5267

不知道大家有没有这样一个经历，就是在定位元素时，怎么都定位不到，但是id等标签并没有错，真是让人摸不着头脑。其实，这就是iframe在作怪咯！本篇详细介绍 iframe 相关的切换以 http://mail.163.com/ 的登录页面为案例，详细介绍 switch_to_frame 使用方法。一、frame 和和 iframe 区别frame 与 iframe 两者可以实现的功能基本相同，

Selenium Documentation

08-18

在这段期间，我一直在找关于服务器的端测试方案，自动化工具等等，无意间我发现了Selenium 这个工具。在试用一段时间后，觉得Selenium 确实是一个很不错的Web 测试工具。在和强大的QTP 比较后，我最后还是选择了使用 Selenium，主要的原因是工具使用灵活，简单，并且完全满足我的要求。而QTP 虽然强大，但它的使用让我觉得非常繁琐，而调试功能也让我郁闷......鉴于种种这样的原因，我最后选择了Selenium。本系列文章主要是总结我在前一段时间了解到的关于Selenium 的一些知识

selenium操作中遇到iframe怎么办

最新发布

OKCRoss的博客

07-24

442

在Selenium中，如果你遇到了iframe（内联框架），你需要首先切换到该iframe的上下文中，然后才能定位到iframe内部的元素。这是因为iframe是一个独立的文档环境，Selenium默认只能定位到主文档的元素，无法直接定位到iframe内部的元素。请注意，如果你的页面中有嵌套的iframe（即iframe内部还有另一个iframe），你需要按照嵌套的顺序依次切换上下文。一旦你切换到了iframe的上下文，你就可以像定位主文档中的元素一样来定位iframe内部的元素了。

selenium 的iframe 提取 #docment

huxuan93的博客

05-19

473

【代码】selenium 的iframe 提取 #docment。

java获取iframe,Scrapy+Selenium 获取iframe下的document

weixin_36403165的博客

03-12

620

需求：获取iframe h3下的标题，img的源，及a标签的落地页需要先熟悉Selenium的同学：点击学习使用xpath获取iframe下的内容为空，如图可采用execute_script运行js获取，获取iframe下的document使用[iframe标签].contentWindow.document# 当前iframe有多个，而且id是动态的。首先找到idtemp_iframe_id ...

python爬虫selenium爬不到frame 的tag标记下#document==0的内容解决

集电极

11-08

2646

python爬虫selenium爬不到frame 的tag标记下#document==0的内容解决前言按理来说，selenium可以获取当前页面的所有源代码，但却爬不到frame 的tag标记下#document= ，=0的内容。我理解为#document==0下的内容可能算是另一个页面了。说是页面中的嵌入页面更好一些。所以我们爬不到他里面的内容。 frame标签有frameset、frame、iframe三种，frameset跟其他普通标签没有区别，不会影响到正常的定位，而frame与iframe对

selenium和scrapy基础

qq_40244876的博客

05-24

445

selenium和scrapy基础 1 多任务异步协程基础编码流程创建协程对象创建任务对象创建事件循环对象将任务注册到事件循环对象中特殊的函数：使用async修饰函数，则该函数就是一个特殊的函数， async def get_request(url): print('正在请求:',url) sleep(1) print('请求结束:',url) 协程对象：特殊函数被调用后函数内部的实现语句不会被立即执行，该函数调用后会返回一个协程对象 c =

基于selenium模拟浏览器爬虫JS-frame，搜索+爬取详情页+翻页

weixin_50674661的博客

03-25

1379

基于selenium模拟浏览器爬虫JS-frame网站课设中需要爬一个很神奇的网站Web Gallery，一开始看结构以为是很简单的那种，开始爬的时候才发现它的结构之奇葩……所有东西都集成在一个html页面里，css和js都没有单独分文件，古早得像是十年前的架构，但偏偏全部的数据响应都是在script里完成的，没有对应域名，刷新即会回到index页面，甚至当我发现它能整个html里不存在一个id的时候真的要吐了…… 于是一开始用Scrapy捕捉静态完全失败，好在重新学了一下selenium模拟浏览器爬成功

Jsoup+selenium爬取iframe内容的方法

咘噜biu的博客

04-21

2468

Selenium笔记

铁马冰河入梦来

08-06

455

基础使用 from selenium import webdriver driver = webdriver.Firefox() driver.get("https://www.baidu.com") #刷新 driver.refresh() #前进 driver.forward() #后退 driver.back() #设置窗口大小 driver.set_window_size(500,50...

Selenium Documentation 中文翻译版（已停更）

07-22

4548

Selenium Documentation 中文翻译版 1.读者注意 - Selenium 2.0文档持续修订中！ 2.简介 2.1 Web应用的自动化测试 2.2 自动化还是不自动化？ 2.3 引入Selenium 2.4 Selenium项目的简史 2.5 Selenium的工具套件 2.6 选择你的Selenium工具 2.7 支持的浏览器和平台 2.8 灵活性和可扩展...

Selenium的中文手册〔转载〕

阿喵的博客

02-27

8522

Selenium中文手册一、 Commands (命令) Action 对当前状态进行操作失败时，停止测试 Assertion 校验是否有产生正确的值 Element Locators 指定HTML中的某元素 Patterns 用于模式匹配 1. Element Locators (元素定位器) id=id id locator 指定HTML

selenium之document.querySelector()方法

u014694915的博客

04-30

1203

/为文档的第一个h2元素添加背景颜色，但是，如果文档中<h3>元素位于<h2>元素之前，<h3>元素将会被设置指定的背景颜色，总结，多元素选择时，哪个先匹配就是谁咯，只有一个被选中。当页面中出现多个相同class标签(或者多个相同标签(比如多个div))时，如果你需要返回所有的元素，请使用 querySelectorAll() 方法替代。// 移除style属性。

使用selenium获取不到#document里面的网页内容的问题解决

qq_37253540的博客

05-07

5733

一、问题出现的原因网页中有一种节点叫做iframe,相当于外部页面的子页面，它的结构和外部页面的结构是一致的。当我们使用selenium去模拟浏览器进行操作时，是默认的在父级Frame里面进行操作，但是页面中还存在子Frame，这时候是获取不到子Frame里面的节点的，也就表现在虽然在页面中有数据内容，但是使用模拟浏览器获取获取不到任何内容。二、解决方法 # 获取#document下的...

Python：selenium处理iframe

leowutooo的博客

05-27

1252

0.iframe处理+动作链 iframe是什么？ -- 在一个页面当中可以嵌套一个子页面，这个子页面就可以由iframe标签帮我们实现 -- 如果定位的标签存在于iframe标签之中，则必须使用：switch_to.frame(id) -- 动作链（拖动）：from selenium.webdriver import ActionChains - 实例化一个动作链对象：action=ActionChains(bro) - 接下来就可以触发动作链当中的长按点击操作：click_an...