Python3网络爬虫开发实战(一)

1.开发环境配置

1.1Python3的安装

在写博客之前,楼主使用的是目前为止最新版本的Python 3.9.1。但由于在安装tesserocr时,没有对应版本的wheel文件。因此,将Python的版本降到了3.7.9。具体的影响因为刚开始学习暂时未知,先用3.7.9的版本。

1.2请求库的安装

爬虫可以简单的分为几步:抓取页面、分析页面、存储数据。

  • 在抓取页面的过程中,需要模拟浏览器向服务器发出请求,需要用到一些Python库来实现HTTP请求操作。

    • 用到的第三方库有requestsSeleniumaiohttp

      1. requests

        中文文档:http://docs.python-requests.org/zh_CN/latest

        pip安装pip install requests

        验证安装import requests,如没有错误提示,则安装成功。

      2. Selenium

        Selenium是一个自动化测试工具,利用它可以驱动浏览器执行特定的动作,如点击、下拉等操作。对于一些JavaScript渲染的页面来说,这种抓取方式非常有效。

        中文文档:http://selenium-python-zh.readthedocs.io

        pip安装pip install selenium

        验证安装:import selenium,如没有错误提示,则安装成功

      3. ChromeDriver

        配合Selenium进行使用。安装前确保正确安装Chrome浏览器并正常运行。

        下载地址:https://chromedriver.storage.googleapis.com/index.html

        环境变量配置:Windows下,建议直接将chromedriver.exe文件拖到Python的Scripts目录下。

        验证安装:配置完成后,可以直接在命令行下执行chromedriver命令

        chromedriver

        ​ 类似输出为:
        Starting ChromeDriver 88.0.4324.96 (68dba2d8a0b149a1d3afac56fa74648032bcf46b-refs/branch-heads/4324@{#1784}) on port 9515
        Only local connections are allowed.
        Please see https://chromedriver.chromium.org/security-considerations for suggestions on keeping ChromeDriver safe.
        ChromeDriver was started successfully.

        ​ (Note:保持ChromeDriver运行)随后在程序中测试。执行如下Python代码:

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值