本文主要配置网络爬虫过程中用到的环境配置,主要有:
- Python3+Pip
- MongoDB
- Redis
- MySQL
- Python端版本共存
- Python爬虫常用库
注意:本文是Windows下的环境配置
Python3+Pip环境配置
第一种:Anaconda 这个软件包含了python以及其各种包
下载地址 https://www.anaconda.com/
注意:
1、安装路径可选择安装
2、两个都勾选
第二种:去Python官网下载对应版本的python,然后安装,安装过程简单,不再描述
下载地址:https://www.python.org/
注意:安装时勾选自动添加环境变量或者安装之后手动添加
MongoDB环境配置
下载地址:https://www.mongodb.com/download-center?jmp=nav#production
注意:安装过程选择Custom,安装路径可选择安装
启动MongoDB
在bin的同级目录下新建data文件夹再在里面新建db文件夹
最后浏览器访问 http://localhost:27017/
Redis环境配置
下载地址:https://github.com/MicrosoftArchive/redis/releases
安装过程简单
可视化界面下载地址 https://github.com/uglide/RedisDesktopManager/releases?after=0.9.0-alpha1 推荐0.8.8
安装过程简单
MySQL的安装
推荐参考: https://www.cnblogs.com/ayyl/p/5978418.html
解决Python多版本共存
推荐参考: https://www.cnblogs.com/imshome/p/8422311.html
Python爬虫常用库的安装
1、urllib和re库已经自带
2、requests 安装命令:pip install requests
3、selenium 安装命令: pip install selenium
4、chromedriver
下载:http://npm.taobao.org/mirrors/chromedriver/2.28/
把压缩包解压后放到python文件的scripts文件夹下
5、phantomjs
下载:http://phantomjs.org/download.html
解压文件
需要把该文件所在路径配置到对应的环境变量
6、lxml
pip install lxml
7、beautifulsoup
pip install beautifulsoup4
8、pyquery
pip install pyquery