使用Python+selenium+BeautifulSoup抓取动态网页的关键信息

最新推荐文章于 2024-08-23 17:12:41 发布

vincentluo91

最新推荐文章于 2024-08-23 17:12:41 发布

阅读量1.4w

点赞数 1

分类专栏： Python及爬虫文章标签： python selenium 数据库 javascript

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/vincentluo91/article/details/52947214

版权

本文介绍了如何利用Python的selenium和BeautifulSoup库抓取嵌入JavaScript的动态网页——千人基因组数据库中的CHB人群等位基因频率信息。在操作过程中，详细说明了安装selenium、处理chromedriver兼容性问题以及部署源代码的步骤。

摘要由CSDN通过智能技术生成

程序目的：

根据特定的SNP list，在千人基因组数据库中爬取CHB人群的等位基因频率信息，如https://www.ncbi.nlm.nih.gov/variation/tools/1000genomes/?q=rs12340895。
因为网页是动态的数据，嵌入了JavaScript代码，因此借助selenium来爬取信息。
Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，避免了用繁杂的正则表达式。

准备工作：

0、安装selenium：pip install -U selenium
1、安装chromedriver: brew install chromedriver

注意：使用该命令安装的时候可能安装的chromedriver不是最新版，有可能导致与chrome浏览器版本不兼容而报如下错误：
unknown error: Runtime.executionContextCreated has invalid ‘context’: {“auxData”:{“frameId”:”11740.1”,”isDefault”:true},”id”:1,”name”:”“,”origin”:”://”}
(Session info: chrome=54.0.2840.71)
(Driver info: chromedriver=2.9.248307,platform=Mac OS X 10.9.4 x86_64)
这个其实是老版本的chromedriver 无法正常启动chrome。解决办法就是下载最新的chromedriver.
如果用brew upgrade命名更新不了chromedriver，要去https://sites.google.com/a/chromium.org/chromedriver/downloads 下载刚发布的Latest Release: ChromeDri

最低0.47元/天解锁文章

关注

1
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。