爬虫-第一节-selenium的简单使用


最近学会一个非常好用的包,用来爬取网页,做一个记录

1 在windows10使用selenium爬取KEGG网页

需要的环境:

  1. 安装chrome和chromedriver(安装需要的浏览器,这里以Chrome为例;安装对应版本的chromedriver;加入环境变量;下面做详细说明)
  2. 安装selenium包(打开cmd;pip install selenium)

1.1 安装必要的包和软件

1.1.1 安装chromedriver

找到Chrome的版本号,在https://chromedriver.chromium.org/downloads下载对应的chromedriver。
在这里插入图片描述解压到Chrome的安装目录,见下图。
在这里插入图片描述

将以上两个软件加入环境变量。若加入成功,在cmd界面运行chrome
在这里插入图片描述
在这里插入图片描述

1.2 实例(爬取KEGG网页的KEGG Pathway)

from selenium import webdriver

driver = webdriver.Chrome()
driver.get('https://www.kegg.jp/kegg/')##输入需要爬取的网页网址

在这里插入图片描述
按Ctrl+Shift+i打开开发者模式,按照下图顺序找到我们需要的KEGG PATHWAY的链接

在这里插入图片描述

link = driver.find_element_by_link_text('KEGG PATHWAY')##根据链接文本找到链接元素
link.click()##点击链接跳转到新的页面,见下图

在这里插入图片描述

html_source = driver.page_source##获取新网页的源代码
print(html_source)##见下图

在这里插入图片描述
参考:
https://www.geeksforgeeks.org/find_element_by_link_text-driver-method-selenium-python/
https://blog.csdn.net/xhaimail/article/details/105435794
https://chromedriver.chromium.org/downloads

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值