动态网页的信息爬取

本文介绍了如何利用Selenium这个Web自动化测试工具来爬取动态网页。首先,详细讲解了Selenium的基本概念和安装环境,接着展示了如何自动填充百度搜索框并完成搜索,然后讨论了如何爬取动态网页的数据,包括翻页策略。最后,提到了爬取京东网站上书籍信息的例子。
摘要由CSDN通过智能技术生成

一、Selenium
(一)Selenium简介
Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。

Selenium 可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。

Selenium 自己不带浏览器,不支持浏览器的功能,它需要与第三方浏览器结合在一起才能使用。但是我们有时候需要让它内嵌在代码中运行,所以我们可以用一个叫 PhantomJS 的工具代替真实的浏览器。

(二)安装环境
1.安装依赖·
要开始使用selenium,需要安装一些依赖
 

conda install selenium

1.安装驱动
要使用selenium去调用浏览器,还需要一个驱动,不同浏览器的webdriver需要独立安装

二、自动填充百度网页的查询关键字并完成自动搜索

1.检查百度源代码中搜素框的id以及搜素按钮的id

2.获取百度网页

from selenium import webdriver

driver = webdriver.Firefox(executable_path=r'F:\browserdriver\geckodriver-v0.30.0-win64\geckodriver.exe')
driver.get("https://www.baidu.com/")
3.填充搜索框

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值