程序目的:
根据特定的SNP list, 在千人基因组数据库中爬取CHB人群的等位基因频率信息,如https://www.ncbi.nlm.nih.gov/variation/tools/1000genomes/?q=rs12340895。
因为网页是动态的数据,嵌入了JavaScript代码,因此借助selenium来爬取信息。
Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,避免了用繁杂的正则表达式。
准备工作:
- 0、安装selenium:pip install -U selenium
1、安装chromedriver: brew install chromedriver
注意:使用该命令安装的时候可能安装的chromedriver不是最新版,有可能导致与chrome浏览器版本不兼容而报如下错误:
unknown error: Runtime.executionContextCreated has invalid ‘context’: {“auxData”:{“frameId”:”11740.1”,”isDefault”:true},”id”:1,”name”:”“,”origin”:”://”}
(Session info: chrome=54.0.2840.71)
(Driver info: chromedriver=2.9.248307,platform=Mac OS X 10.9.4 x86_64)
这个其实是老版本的chromedriver 无法正常启动chrome。解决办法就是下载最新的chromedriver.
如果用brew upgrade命名更新不了chromedriver,要去https://sites.google.com/a/chromium.org/chromedriver/downloads 下载刚发布的Latest Release: ChromeDri