python-玩转数据-爬虫常用库和框架

人猿宇宙

已于 2022-02-06 21:02:26 修改

阅读量450

点赞数

分类专栏： python-玩转数据-网络数据采集文章标签： python 爬虫

于 2022-02-06 11:29:46 首次发布

本文链接：https://blog.csdn.net/s_unbo/article/details/122796607

版权

python-玩转数据-网络数据采集专栏收录该内容

16 篇文章 3 订阅

订阅专栏

本文介绍了Python爬虫中常见的请求库如urllib和Requests，解析库如re, lxml及BeautifulSoup，存储库如pymysql和pymongo，以及爬虫框架如Scrapy和PySpider。还提到了Web框架Flask和Django，并探讨了Selenium和aiohttp在爬虫中的应用。此外，文章涵盖了数据提取、数据库交互和分布式爬取等多个方面。

摘要由CSDN通过智能技术生成

python-玩转数据-爬虫常用库和框架

一、请求库：实现 HTTP 请求操作
urllib库：一系列用于操作URL的功能，Python的内置库，直接使用方法import导入即可。Urllib 库中有这么 4 个模块

1、urllib.request()：request模块是我们用的比较多的，就是用它来发起请求，模拟浏览器

2、urllib.error()：error模块就是当我们在使用 request 模块遇到错了，就可以用它来进行异常处理

3、urllib.parse()：parse模块就是用来解析我们的 URL 地址的，比如解析域名地址啦，URL指定的目录等

4、urllib.robotparse()：这个用的就比较少了，它就是用来解析网站的 robot.txt

Requests库这个库比 urllib 要牛逼一丢丢的，毕竟 Requests 是在 urllib 的基础上搞出来的。通过它我们可以用更少的代码模拟浏览器操作。requests是一个很实用的Python HTTP客户端库，是Python语言的第三方库（测试网站http://www.httpbin.org/ 这个网站可以在页面上返回所发送请求的相关信息，十分适合练习使用）

1、requests.request() 构造一个请求，支撑以下各方法的基础方法

2、requests.get() 获取HTML网页的主要方法，对应于HTTP的GET

3、requests.head() 获取HTML网页头信息的方法，对应于HTTP的HEAD

4、requests.post() 向HTML网页提交POST请求的方法，对应于HTTP的POST

5、requests.put() 向HTML网页提交PUT请求的方法，对应于HTTP的PUT

6、requests.patch() 向HTML网页提交局部修改请求，对应于HTTP的PATCH

7、requests.delete() 向HTML页面提交删除请求，对应于HTTP的DELETE

selenium库：是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE（7, 8, 9, 10, 11），Mozilla Firefox，Safari，Google Chrome，Opera等。
这个工具的主要功能包括：测试与浏览器的兼容性——测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上。测试系统功能——创建回归测试检验软件功能和用户需求。支持自动录制动作和自动生成 .Net、Java、Perl等不同语言的测试脚本。
selenium用于爬虫，主要是用来解决javascript渲染的问题

aiohttp库：基于 asyncio 实现的 HTTP 框架，提供异步的web服务的库。异步操作借助于 async/await 关键字，使用异步库进行数据抓取，可以大大提高效率。与以前不同主要在于

首先在导入库的时候，我们除了必须要引入 aiohttp 这个库之外，还必须要引入 asyncio 这个库，因为要实现异步爬取需要启动协程，而协程则需要借助于 asyncio 里面的事件循环来执行。除了事件循环，asyncio 里面也提供了很多基础的异步操作。

二、解析库：从网页中提取信息
re：使用正则表达式（regex）库提取信息，Python的内置库。

lxml：支持HTML和XML的解析，支持XPath解析方式，而且解析效率非常高。lxml库支持XPath语法的使用，xpath 是一门在 XML 文档中查找信息的语言。xpath 可用来在 XML 文档中对元素和属性进行遍历。

beautifulsoup：是一个网络解析库，依赖于lxml库。html 和 XML 的解析,从网页中提取信息，同时拥有强大的API和多样解析方式。官方推荐使用beautifulsoup4进行开发

JSON
json模块支持JSONPath语法的使用。

三、存储库：Python 与数据库交互
pymysql：一个纯 Python 实现的 MySQL 客户端操作库。

pymongo：一个用于直接连接 mongodb 数据库进行查询操作的库。

redisdump：一个用于 redis 数据导入/导出的工具。基于 ruby 实现的，因此使用它，需要先安装 Ruby。

四、爬虫框架

1、Scrapy
Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。

项目地址：https://scrapy.org/