Win下Python爬虫基本常用的py库的安装

最新推荐文章于 2025-06-04 19:04:13 发布

QJM1995

最新推荐文章于 2025-06-04 19:04:13 发布

阅读量507

点赞数

CC 4.0 BY-SA版权

文章标签： python 爬虫库基本

本文链接：https://blog.csdn.net/QJM1995/article/details/79224867

Win下Python爬虫基本常用的py库的安装

这里介绍的常用的python库，并不是需求环境配置（例如VC等的安装，如有需要可以看看我的其他博客），库具体用法之后会写一系列详细的博文。下面的库理论上都可以通过pip安装，但是有时会因为墙等各种原因安装失败，解决办法有：1、多试几次，2、到pypi上下载对应版本的whl文件，控制台cd到whl的下载目录，pip install 文件名.whl 安装即可，在此之前一定要先执行pip install wheel，否则whl文件将无法安装。

网页请求：

（1）、urllib与re库

python内置的的库，无需安装，urllib主要是用来请求网页解析页面，re主要是用来进行正则表达式的使用。验证方式：python下输入import urllib 以及 import re 没有报错即可。

（2）、requests库

也是网页的请求解析库，但是功能比urllib更加强大和方便，使用更少的语句可以完成同样的效果，之后的使用过程中主要使用这个库，而很少使用urllib，控制台输入：pip install requests，等待安装成功即可，验证方式：import requests，没有报错即可。

（3）、selenium库

主要用来驱动浏览器，可以驱动的浏览器有谷歌，火狐等等，这是为了解决动态网页的问题，有些网页加载过程中并不是纯的html代码，而是ajax等动态渲染的页面，因此抓取的代码与看到的网页是不同的，动态网页抓取有很多方式，这是其中之一，也是比较通用的方式，即模拟手动操控浏览器进行信息抓取。

控制台输入：pip install selenium ,等待安装成功，库安装好还需要一个浏览器驱动，以谷歌浏览器为例，搜索chromedriver，下载解压，将可执行exe文件复制到python安装目录的Scripts目录下，验证方式

import selenium
from selenium import webdriver
web=webdriver.Chrome()

执行弹出谷歌浏览器即可（注意浏览器的版本要与驱动版本相适应），也可以使用无界面浏览器，防止过程中浏览器弹出干扰，搜索plantomjs并且打开官网，下载解压，将其bin目录配置到环境变量PATH中，即之前配python的变量项，这里是为了系统能够找到这个驱动，之前的Chrome驱动原理也是这样，因为python的环境变量已经配置好，所以不用重新配置。

网页解析：

（4）、lxml库

网页解析库，用来解析提取需要的信息，控制台输入：pip install lxml，提示安装完成即可。

（5）、beautifulsoup库

网页解析库，基于lxml库，也是用来使用解析信息用的，要先安装好lxml库，之后控制台输入：pip install beautifulsoup4，提示安装完成即可。

（6）、pyquery库

也是网页解析库，与jQuery语法是一致的，十分适合有网页开发经历的使用，控制台输入：pip install pyquery，等待安装完成即可。

数据存储：

（7）、pymysql、pymongo、redis库

三个数据库，用于爬取数据的存储，当然也可以以文本或者json等方式存储，mysql是关系型数据库，个人使用以及网页开发时用的比较多，轻便方便直观；MongoDB，非关系型数据库，以键值对的形式存储数据，不需要建表与管理表的结构，很符合爬虫的存储结构；redis，非关系型数据库，也是键值对的形式存储，用于分布式，速度快。安装方式都是pip install 库名，等待安装完成即可。