Python3网络爬虫开发实战(一)

本文详细介绍了Python3网络爬虫的开发环境配置,包括Python3的安装、请求库(requests, Selenium)与解析库(lxml, BeautifulSoup, pyquery, tesserocr)的安装,以及数据库(MySQL, MongoDB, Redis)与存储库(PyMySQL, PyMongo, redis-py)的安装。针对Selenium,特别提到了ChromeDriver和GeckoDriver的配置,并指出PhantomJS已被放弃。最后,文章提醒读者注意tesserocr安装时可能遇到的问题及其解决方法。" 116294100,10296022,Python cx_Oracle与xlrd结合使用时的executemany错误处理,"['Python库', '数据库操作', '数据导入', 'Oracle', '数据类型转换']
摘要由CSDN通过智能技术生成

1.开发环境配置

1.1Python3的安装

在写博客之前,楼主使用的是目前为止最新版本的Python 3.9.1。但由于在安装tesserocr时,没有对应版本的wheel文件。因此,将Python的版本降到了3.7.9。具体的影响因为刚开始学习暂时未知,先用3.7.9的版本。

1.2请求库的安装

爬虫可以简单的分为几步:抓取页面、分析页面、存储数据。

  • 在抓取页面的过程中,需要模拟浏览器向服务器发出请求,需要用到一些Python库来实现HTTP请求操作。

    • 用到的第三方库有requestsSeleniumaiohttp

      1. requests

        中文文档:http://docs.python-requests.org/zh_CN/latest

        pip安装pip install requests

        验证安装import requests,如没有错误提示,则安装成功。

      2. Selenium

        Selenium是一个自动化测试工具,利用它可以驱动浏览器执行特定的动作,如点击、下拉等操作。对于一些JavaScript渲染的页面来说,这种抓取方式非常有效。

        中文文档:http://selenium-python-zh.readthedocs.io

        pip安装pip install selenium

        验证安装:import selenium,如没有错误提示,则安装成功

      3. ChromeDriver

        配合Selenium进行使用。安装前确保正确安装Chrome浏览器并正常运行。

        下载地址:https://chromedriver.storage.googleapis.com/index.html

        环境变量配置:Windows下,建议直接将chromedriver.exe文件拖到Python的Scripts目录下。

        验证安装:配置完成后,可以直接在命令行下执行chromedriver命令

        chromedriver

        ​ 类似输出为:
        Starting ChromeDriver 88.0.4324.96 (68dba2d8a0b149a1d3afac56fa74648032bcf46b-refs/branch-heads/4324@{#1784}) on port 9515
        Only local connections are allowed.
        Please see https://chromedriver.chromium.org/security-considerations for suggestions on keeping ChromeDriver safe.
        ChromeDriver was started successfully.

        ​ (Note:保持ChromeDriver运行)随后在程序中测试。执行如下Python代码:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值