网络爬虫开发实战（一）：开发环境配置

最新推荐文章于 2024-04-14 10:43:58 发布

帕特尼的小虾米

最新推荐文章于 2024-04-14 10:43:58 发布

阅读量682

点赞数

分类专栏：网络爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_30281495/article/details/86777462

版权

本文为整理最近学习的爬虫内容，学习网址https://germey.gitbooks.io/python3webspider/

开发环境配置

目录

开发环境配置

2. 请求库的安装

3. 解析库的安装

4. 数据库的安装

5. 存储库的安装

6. Web库的安装

7. 爬虫框架的安装

8. 部署相关库的安装

1. python3

2. 请求库的安装

爬虫可以简单分为几步：抓取页面、分析页面、存储数据。

在第一步抓取页面的过程中，我们就需要模拟浏览器向服务器发出请求，所以需要用到一些 Python 库来实现 HTTP 请求操作。

介绍安装的库有：requests、selenium、aiohttp、ChromeDriver/GeckoDriver、PhantomJS

Requests

是一个阻塞式 HTTP 请求库。

pip install requests

Selenium

是一个自动化测试工具，利用它我们可以驱动浏览器执行特定的动作，如点击、下拉等等操作，对于一些 JavaScript 渲染的页面来说，此种抓取方式非常有效。

pip install selenium

ChromeDriver(https://chromedriver.storage.googleapis.com/index.html)/GeckoDriver(https://github.com/mozilla/geckodriver/releases)（相应的浏览器驱动）

PhantomJS(http://phantomjs.org/download.html)

如果我们使用 Chrome 或 Firefox 进行网页抓取的话，每次抓取的时候，都会弹出一个浏览器，比较影响使用。所以在这里再介绍一个无界面浏览器，叫做 PhantomJS。

PhantomJS 是一个无界面的，可脚本编程的 WebKit 浏览器引擎。它原生支持多种 web 标准：DOM 操作，CSS 选择器，JSON，Canvas 以及 SVG。

Selenium 支持 PhantomJS，这样在运行的时候就不会再弹出一个浏览器了，而且其运行效率也是很高的，还支持各种参数配置，使用非常方便。

Aiohttp

是一个提供异步 Web 服务的库，从 Python3.5 版本开始，Python 中加入了 async/await 关键字，使得回调的写法更加直观和人性化，Aiohttp的异步操作借助于 async/await 关键字写法变得更加简洁，架构更加清晰。使用异步请求库来进行数据抓取会大大提高效率。

pip install aiohttp

3. 解析库的安装

抓取下网页代码之后，下一步就是从网页中提取信息，提取信息的方式有多种多样，可以使用

最低0.47元/天解锁文章

帕特尼的小虾米

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
网络爬虫开发实战（一）：开发环境配置

本文为整理最近学习的爬虫内容，学习网址https://germey.gitbooks.io/python3webspider/开发环境配置目录开发环境配置1. python32. 请求库的安装3. 解析库的安装4. 数据库的安装5. 存储库的安装6. Web库的安装7. 爬虫框架的安装8. 部署相关库的安装1. python3 2. 请求库的...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。