Win下Python爬虫基本常用的py库的安装
这里介绍的常用的python库,并不是需求环境配置(例如VC等的安装,如有需要可以看看我的其他博客),库具体用法之后会写一系列详细的博文。下面的库理论上都可以通过pip安装,但是有时会因为墙等各种原因安装失败,解决办法有:1、多试几次,2、到pypi上下载对应版本的whl文件,控制台cd到whl的下载目录,pip install 文件名.whl 安装即可,在此之前一定要先执行pip install wheel,否则whl文件将无法安装。
网页请求:
(1)、urllib与re库
python内置的的库,无需安装,urllib主要是用来请求网页解析页面,re主要是用来进行正则表达式的使用。验证方式:python下输入import urllib 以及 import re 没有报错即可。
(2)、requests库
也是网页的请求解析库,但是功能比urllib更加强大和方便,使用更少的语句可以完成同样的效果,之后的使用过程中主要使用这个库,而很少使用urllib,控制台输入:pip install requests,等待安装成功即可,验证方式:import requests,没有报错即可。
(3)、selenium库
主要用来驱动浏览器,可以驱动的浏览器有谷歌,火狐等等,这是为了解决动态网页的问题,有些网页加载过程中并不是纯的html代码,而是ajax等动态渲染的页面,因此抓取的代码与看到的网页是不同的,动态网页抓取有很多方式,这是其中之一,也是比较通用的方式,即模拟手动操控浏览器进行信息抓取。
控制台输入:pip install selenium ,等待安装成功,库安装好还需要一个浏览器驱动,以谷歌浏览器为例,搜索chromedriver,下载解压,将可执行exe文件复制到python安装目录的Scripts目录下,验证方式
import selenium
from selenium import webdriver
web=webdriver.Chrome()
执行弹出谷歌浏览器即可(注意浏览器的版本要与驱动版本相适应),也可以使用无界面浏览器,防止过程中浏览器弹出干扰,搜索plantomjs并且打开官网,下载解压,将其bin目录配置到环境变量PATH中,即之前配python的变量项,这里是为了系统能够找到这个驱动,之前的Chrome驱动原理也是这样,因为python的环境变量已经配置好,所以不用重新配置。
网页解析:
(4)、lxml库
网页解析库,用来解析提取需要的信息,控制台输入:pip install lxml,提示安装完成即可。
(5)、beautifulsoup库
网页解析库,基于lxml库,也是用来使用解析信息用的,要先安装好lxml库,之后控制台输入:pip install beautifulsoup4,提示安装完成即可。
(6)、pyquery库
也是网页解析库,与jQuery语法是一致的,十分适合有网页开发经历的使用,控制台输入:pip install pyquery,等待安装完成即可。
数据存储:
(7)、pymysql、pymongo、redis库
三个数据库,用于爬取数据的存储,当然也可以以文本或者json等方式存储,mysql是关系型数据库,个人使用以及网页开发时用的比较多,轻便方便直观;MongoDB,非关系型数据库,以键值对的形式存储数据,不需要建表与管理表的结构,很符合爬虫的存储结构;redis,非关系型数据库,也是键值对的形式存储,用于分布式,速度快。安装方式都是pip install 库名,等待安装完成即可。
反爬机制:
(8)、flask库
代理设置时使用,设置web服务器等,安装方式同上。反爬机制有很多,之后会逐步介绍。
演示管理:
(9)、django库
提供一些模板,接口等,对于纯爬虫来说,使用的机会不大,安装同上。
(10)、jupyter库
网页文本编辑器,在网页上进行python代码的执行调试等等,安装同上,安装好后,控制台输入:jupyter notebook,就可以弹出浏览器经行新建文件以及使用,当然开发爬虫使用的IDE有很多,之后也是主要使用pycharm,这个库的使用机会也不大。
以上就是使用python开发爬虫时使用的基本库,基本上涵盖了全开发过程,pip安装不上请参看文首的whl文件安装方式。
这其中有不合适或者不正确的地方欢迎指正,我的QQ号码:2867221444(乔金明),谢谢,也可以相互交流下,备注信息随意,只要能看得出是开发者或者学习者即可。