使用Python+selenium+BeautifulSoup抓取动态网页的关键信息

程序目的:

根据特定的SNP list, 在千人基因组数据库中爬取CHB人群的等位基因频率信息,如https://www.ncbi.nlm.nih.gov/variation/tools/1000genomes/?q=rs12340895
因为网页是动态的数据,嵌入了JavaScript代码,因此借助selenium来爬取信息。
Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,避免了用繁杂的正则表达式。

准备工作:

  • 0、安装selenium:pip install -U selenium
  • 1、安装chromedriver: brew install chromedriver

    注意:使用该命令安装的时候可能安装的chromedriver不是最新版,有可能导致与chrome浏览器版本不兼容而报如下错误:
    unknown error: Runtime.executionContextCreated has invalid ‘context’: {“auxData”:{“frameId”:”11740.1”,”isDefault”:true},”id”:1,”name”:”“,”origin”:”://”}
    (Session info: chrome=54.0.2840.71)
    (Driver info: chromedriver=2.9.248307,platform=Mac OS X 10.9.4 x86_64)
    这个其实是老版本的chromedriver 无法正常启动chrome。解决办法就是下载最新的chromedriver.
    如果用brew upgrade命名更新不了chromedriver,要去https://sites.google.com/a/chromium.org/chromedriver/downloads 下载刚发布的Latest Release: ChromeDri

  • 1
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值