利用selenium+webdriver进行中新网爬虫,以及webdriver环境搭建

webdriver环境搭建,以及利用selenium+webdriver进行爬虫实战。


前言

环境:python3.0以上版本,Windows、jupyter notebook

浅诉一下web driver的搭建和新闻网网体育栏目的爬虫。
目前,大多数网站页面都是动态页面,通过Ajax接口异步加载数据并呈现到页面上。如果爬虫仅通过HTTP请求下载页面,则只能获取静态数据,而不能获取动态数据。解决这个问题有两种方法:1。调用Ajax接口;2.Selenium模拟浏览器呈现页面。然而,直接调用Ajax接口可能会遇到请求参数加密的情况。如果你不擅长反向破解JS加密,最好使用selenium+webdriver。接下来,我们来谈谈selenium+webriver环境建设和案例实践。

一、selenium+webdriver环境搭建

selenium的安装很简单,直接在Windows终端下运行以下命令即可
前提是你已经安装了python并且添加了python的环境变量。

pip install selenium

1. webdriver 下载

在下载webdriver前你得知道自己用的浏览器版本型号,推荐使用的是Google的chrome浏览器或者是火狐浏览器,本文用的是chrome浏览器。

chrome环境:在chrome浏览器中敲入chrome://version。前往链接下载对应版本的chormedriver.exe
https://registry.npmmirror.com/binary.html?path=chromedriver/
在此链接下载和自己浏览器相同版本或者相近版本的driver
在这里插入图片描述
在这里插入图片描述

2.在使用driver前需要将其添加到环境变量

将下载的driver解压到python安装目录下,如果不知道python安装在哪里,可以按“win+r”打开CMD输入命令“where python”,然后按路径找到你python的安装位置,复制路径,右键“我的电脑”——属性——高级系统设置——环境变量——path,将复制的webdriver复制到path里面。同理,找到浏览器安装路径,将路径添加到环境变量。
这样环境的搭建就基本上告一段落了!!!

3.测试安装

新建一个python文件

from selenium import webdriver
driver = webdriver.Chrome()

如果出现 no model named selenium 或者 no model named webdriver 则说明环境变量没有添加好。如果正常弹出浏览器页面,则说明环境搭建成功。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值