Python3网络爬虫开发实战（一）

最新推荐文章于 2024-09-17 13:30:28 发布

未来的小码农

最新推荐文章于 2024-09-17 13:30:28 发布

阅读量1.2k

点赞数 1

分类专栏： Python 文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40484618/article/details/113073157

版权

本文详细介绍了Python3网络爬虫的开发环境配置，包括Python3的安装、请求库（requests, Selenium）与解析库（lxml, BeautifulSoup, pyquery, tesserocr）的安装，以及数据库（MySQL, MongoDB, Redis）与存储库（PyMySQL, PyMongo, redis-py）的安装。针对Selenium，特别提到了ChromeDriver和GeckoDriver的配置，并指出PhantomJS已被放弃。最后，文章提醒读者注意tesserocr安装时可能遇到的问题及其解决方法。" 116294100,10296022,Python cx_Oracle与xlrd结合使用时的executemany错误处理,"['Python库', '数据库操作', '数据导入', 'Oracle', '数据类型转换']

摘要由CSDN通过智能技术生成

1.开发环境配置

1.1Python3的安装

在写博客之前，楼主使用的是目前为止最新版本的Python 3.9.1。但由于在安装tesserocr时，没有对应版本的wheel文件。因此，将Python的版本降到了3.7.9。具体的影响因为刚开始学习暂时未知，先用3.7.9的版本。

官方网站：http://python.org
下载地址：https://www.python.org/downloads

1.2请求库的安装

爬虫可以简单的分为几步：抓取页面、分析页面、存储数据。

在抓取页面的过程中，需要模拟浏览器向服务器发出请求，需要用到一些Python库来实现HTTP请求操作。
- 用到的第三方库有requests、Selenium、aiohttp
  1. requests：
    
    中文文档：http://docs.python-requests.org/zh_CN/latest
    
    pip安装：pip install requests
    
    验证安装：import requests，如没有错误提示，则安装成功。
  2. Selenium：
    
    Selenium是一个自动化测试工具，利用它可以驱动浏览器执行特定的动作，如点击、下拉等操作。对于一些JavaScript渲染的页面来说，这种抓取方式非常有效。
    
    中文文档：http://selenium-python-zh.readthedocs.io
    
    pip安装：pip install selenium
    
    验证安装：import selenium，如没有错误提示，则安装成功
  3. ChromeDriver：
    
    配合Selenium进行使用。安装前确保正确安装Chrome浏览器并正常运行。
    
    下载地址：https://chromedriver.storage.googleapis.com/index.html
    
    环境变量配置：Windows下，建议直接将chromedriver.exe文件拖到Python的Scripts目录下。
    
    验证安装：配置完成后，可以直接在命令行下执行chromedriver命令
    
    chromedriver
    
    类似输出为：
    Starting ChromeDriver 88.0.4324.96 (68dba2d8a0b149a1d3afac56fa74648032bcf46b-refs/branch-heads/4324@{#1784}) on port 9515
    Only local connections are allowed.
    Please see https://chromedriver.chromium.org/security-considerations for suggestions on keeping ChromeDriver safe.
    ChromeDriver was started successfully.
    
    (Note：保持ChromeDriver运行)随后在程序中测试。执行如下Python代码：

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。