python爬虫selenium爬不到frame 的tag标记下#document==0的内容解决

python爬虫selenium爬不到frame 的tag标记下#document==0的内容解决

前言

按理来说,selenium可以获取当前页面的所有源代码,但却爬不到frame 的tag标记下#document= ,=0的内容。我理解为#document==0下的内容可能算是另一个页面了。说是页面中的嵌入页面更好一些。所以我们爬不到他里面的内容。

frame标签有frameset、frame、iframe三种,frameset跟其他普通标签没有区别,不会影响到正常的定位,而frame与iframe对selenium可能定位到。

因为frame 的tag标记下#document==0的内容刚也是一个完整的页面源代码格式。

image-20201108203427653

selenium操作frame

如上图,我们想获取#document下面body的内容。

driver.get(url)打开浏览器,并充分加载内容后。

操作流程是

进入frame框架内,获取frame框架页面源码,(解析frame源代码),退出frame框架

代码如下

from selenium import webdriver
driver = webdriver.Chrome()
url = XXXXXXXXXXX  #自己把地址补充
driver.get(url)
#############流程1
# 通过switch_to.frame进入frame框架页面,有下面四种情况
driver.switch_to.frame(driver.find_elements_by_tag_name("iframe")[0])  # 1.用WebElement对象来定位,发现所有iframe,并把第一个赋值

# driver.switch_to.frame("frame1")  # 2.用id来定位
# driver.switch_to.frame("myframe")  # 3.用name来定位
# driver.switch_to.frame(0)  # 4.用frame的index来定位,第一个是0

##############流程2
frame_html = driver.page_source
# 切换为frame框架页面后,可以通过BeatifulSoup等工具解析frame_html网页代码

##############流程4
# 从frame中切回主文档(switch_to.default_content())
driver.switch_to.default_content()

html = driver.page_source
# 这里的html变回主页面的了

  • 4
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值