RNA序列优化评分:吉布斯自由能批量计算

本文讲述了如何使用Selenium在网页中处理嵌套iframe,获取RNA的吉布斯自由能,包括DNA转录过程、遇到的问题(如元素不可见和网页动态加载)以及解决方法,强调了元素定位和页面渲染等待的重要性。
摘要由CSDN通过智能技术生成

山外青山楼外楼,西湖歌舞几时休,爬虫用了N多次,到头一看是新手。selenium识别网页结构下的元素,而<iframe>(需要对HTML框架有一定的认识)相当于在一个网页结构下另起一个网页结构,这就导致当你的元素处于镶嵌于<iframe>框架时就不能直接获取到,需要将selenium定位到目的元素<iframe>框架之下,才能求取。

 

 本文旨在获得<iframe>框架下RNA的吉布斯自由能数值,RNA的吉布斯自由能在一定程度反映了RNA的稳定性,通过比较不同DNA转录的RNA的吉布斯自由能,我们可以初步了解目标基因转录产物的稳定性,从而对其蛋白表达量有一定的评估。

一、DNA转录成RNA

    DNA到RNA需要将序列互补,并将碱基T转化为U。

seq1 = []
f = open("/home/lh/Documents/Lin/优化序列.txt","r")
for a in f.readlines():
  if a[0] not in [">",'\n']:
    seq1.append(a.replace("\n","")) 

f.close()

seq5 = []
for a in seq1:
  seq4 = ""
  for b in a:
    if b == "T":
      seq4 += "A"
    if b == "A":
      seq4 += "U"
    if b == "G":
      seq4 += "C"
    if b == "C":
      seq4 += "G"
  seq5.append(seq4)

二、批量获取RNA吉布斯自由能

from tqdm import tqdm
import selenium
from tqdm import tqdm
from selenium import webdriver
import re
import time
from bs4 import BeautifulSoup
browser = webdriver.Firefox()
import time
i = 0
energy = []
for a in tqdm(seq5):
  i += 1
  browser.get('https://rna.urmc.rochester.edu/RNAstructureWeb/Servers/Fold/Fold.html')
  browser.find_elements_by_css_selector('#main > form:nth-child(4) > div:nth-child(1) > pre:nth-child(8) > textarea:nth-child(1)')[0].send_keys(a)
  browser.execute_script('window.scrollTo(593,636)')
  browser.find_elements_by_css_selector('#main > form:nth-child(4) > div:nth-child(2) > table:nth-child(2) > tbody:nth-child(1) > tr:nth-child(2) > td:nth-child(2) > input:nth-child(1)')[0].click()
  browser.execute_script('window.scrollTo(593,636)')
  browser.find_elements_by_css_selector('.button')[0].click()
  time.sleep(80)
  browser.implicitly_wait(30)
  element = browser.find_elements_by_tag_name('iframe')
  browser.switch_to_frame(element[0])
  browser.implicitly_wait(30)
  element = browser.find_elements_by_tag_name('iframe')
  browser.switch_to_frame(element[0])
  time.sleep(5)
  bf = str(BeautifulSoup(browser.page_source,"lxml"))
  bf1 = bf[bf.index("ENERGY") + 9:bf.index("ENERGY") + 15]
  energy.append((i,("energy",bf1)))
  browser.switch_to.default_content()

遇到两个问题:

  1. 输入RNA序列后,点击提交报错,显示找不到该元素

click()命令类似于模拟鼠标操作,元素必须在屏幕中可见

2.提交序列生成吉布斯自由能过程找不到目标元素

1)网页处于持续渲染或者刷新中,未展示出所需元素

2)元素隐藏

三、问题解决

1.针对于第一个问题,可以使用命令browser.execute_script('window.scrollTo(x,y)'),使其元素处于屏幕可见位置,其中x,y为鼠标位置坐标。

2.针对第二个问题中第一个小问题,可以等待网页加载,主要由强制等待,显性等待、隐性等待,或者条件等待。

3.针对第二个问题中第二个小问题,第一步找到<iframe>位置,然后使用命令browser.switch_to_frame(),定位到<iframe>框架中,有意思的是我们的元素处于<iframe>的<iframe>中,因此需要定位两次,直至我们的元素暴露出来。

selenium找不到定位元素原因总结:

  1. 鼠标点击找不到位置,很可能是点击的位置不在屏幕视野中

  2. 找不到文本,很有可能是网页渲染没有完成,需要等待加载,也有可能文本在<iframe>中,一个网页等价于一个<iframe>,selenium默认识别第一层框架中的元素,因此框中框需要将其定位到指定的框架中,尤其注意你需要的文本处于多层框架中,那么需要定位到元素所在的框架中

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值