python爬虫selenium爬不到frame 的tag标记下#document==0的内容解决

最新推荐文章于 2024-04-30 22:29:32 发布

集电极

最新推荐文章于 2024-04-30 22:29:32 发布

阅读量2.5k

点赞数 4

分类专栏： python随笔文章标签： selenium python

本文链接：https://blog.csdn.net/qq_38463737/article/details/109564720

版权

python随笔专栏收录该内容

87 篇文章 27 订阅

订阅专栏

python爬虫selenium爬不到frame 的tag标记下#document==0的内容解决

前言

按理来说，selenium可以获取当前页面的所有源代码，但却爬不到frame 的tag标记下#document= ，=0的内容。我理解为#document==0下的内容可能算是另一个页面了。说是页面中的嵌入页面更好一些。所以我们爬不到他里面的内容。

frame标签有frameset、frame、iframe三种，frameset跟其他普通标签没有区别，不会影响到正常的定位，而frame与iframe对selenium可能定位到。

因为frame 的tag标记下#document==0的内容刚也是一个完整的页面源代码格式。

selenium操作frame

如上图，我们想获取#document下面body的内容。

在driver.get(url)打开浏览器，并充分加载内容后。

操作流程是

进入frame框架内，获取frame框架页面源码，（解析frame源代码），退出frame框架

代码如下

from selenium import webdriver
driver = webdriver.Chrome()
url = XXXXXXXXXXX  #自己把地址补充
driver.get(url)
#############流程1
# 通过switch_to.frame进入frame框架页面，有下面四种情况
driver.switch_to.frame(driver.find_elements_by_tag_name("iframe")[0])  # 1.用WebElement对象来定位,发现所有iframe，并把第一个赋值

# driver.switch_to.frame("frame1")  # 2.用id来定位
# driver.switch_to.frame("myframe")  # 3.用name来定位
# driver.switch_to.frame(0)  # 4.用frame的index来定位，第一个是0

##############流程2
frame_html = driver.page_source
# 切换为frame框架页面后，可以通过BeatifulSoup等工具解析frame_html网页代码

##############流程4
# 从frame中切回主文档(switch_to.default_content())
driver.switch_to.default_content()

html = driver.page_source
# 这里的html变回主页面的了

。

集电极

关注

4
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
python爬虫selenium爬不到frame 的tag标记下#document==0的内容解决

python爬虫selenium爬不到frame 的tag标记下#document==0的内容解决前言按理来说，selenium可以获取当前页面的所有源代码，但却爬不到frame 的tag标记下#document= ，=0的内容。我理解为#document==0下的内容可能算是另一个页面了。说是页面中的嵌入页面更好一些。所以我们爬不到他里面的内容。frame标签有frameset、frame、iframe三种，frameset跟其他普通标签没有区别，不会影响到正常的定位，而frame与iframe对
复制链接

扫一扫

专栏目录