1.1 Python3的安装
既然要用 Python3 开发爬虫,那么第一步一定是安装 Python3,本节会介绍 Windows平台下安装 Python3 的过程。
1. 相关链接
- 官方网站:http://python.org
- 下载地址:https://www.python.org/downloads
- 第三方库:https://pypi.python.org/pypi
- 官方文档:https://docs.python.org/3
- 中文教程:http://www.runoob.com/python3/python3-tutorial.html
- Awesome Python:https://github.com/vinta/awesome-python
- Awesome Python 中文版:https://github.com/jobbole/awesome-python-cn
2. Windows下的安装
Windows 下安装 Python3 的方式有两种,一种是通过 Anaconda 安装,Anaconda 提供了 Python 的科学计算环境,里面自带了 Python 以及常用的库,如果选用了此种方式后面的环境配置方式会更加简便,另一种是直接下载安装包安装,即标准的安装方式。下面会依次介绍这两种安装方式,任选其一即可。
2.1 Anaconda安装
Anaconda的 官方下载链接为:https://www.continuum.io/downloads,选择 Python3 版本的安装包下载即可,如图 1-1 所示:
图 1-1 Anaconda Windows 下载页面
如果下载速度过慢可以选择使用清华大学镜像,下载列表链接为:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/,使用说明链接为:https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/,可以选择需要的版本进行下载,速度相比官网会快很多。
下载完成之后直接双击运行安装包安装即可,安装完成之后Python3的环境就配置好了。
根据提示进行安装,完成后你大概会惊讶地发现电脑中多了好多应用,不用担心,我们一项项来看:
- Anaconda Navigator: 用于管理工具包和环境的图形用户界面,后续涉及的众多管理命令也可以在 Navigator 中手工实现。
- Jupyter notebook:基于web的交互式计算环境,可以编辑易于人们阅读的文档,用于展示数据分析的过程。
- qtconsole:一个可执行 IPython 的仿终端图形界面程序,相比 Python Shell 界面,qtconsole 可以直接显示代码生成的图形,实现多行代码输入执行,以及内置许多有用的功能和函数。
- spyder :一个使用Python语言、跨平台的、科学运算集成开发环境。
安装完成后,我们还需要对所有工具包进行升级,以避免可能发生的错误。打开你电脑的终端,在命令行中输入:
conda upgrade --all
2.2 什么是Anaconda?
Anacoda则是一个打包的集合,里面预安装好了conda、python 、众多packages、科学计算工具等等,所以也称为Python的一种发行版本。
2.3 什么是conda?
conda 是开源包(packages)和虚拟环境(environment)的管理系统。
- packages管理:可以使用 conda 来安装、更新 、卸载工具包 ,并且它更关注于数据科学相关的工具包。在安装 anaconda 时就预先集成了像 Numpy、Scipy、Pandas、Scikit-learn 这些在数据分析中常用的包。另外值得一提的是,conda 并不仅仅管理Python的工具包,它也能安装非python的包。
- 虚拟环境管理:在conda中可以建立多个虚拟环境,用于隔离不同项目所需的不同版本的工具包,以防止版本上的冲突。对纠结于 Python 版本的同学们,我们也可以建立 Python2 和 Python3 两个环境,来分别运行不同版本的 Python 代码。
2.4 Anaconda的优点?
- 省时省心: Anaconda通过管理工具包、开发环境、Python版本,大大简化了你的工作流程。不仅可以方便地安装、更新、卸载工具包,而且安装时能自动安装相应的依赖包,同时还能使用不同的虚拟环境隔离不同要求的项目。
- 分析利器: 在 Anaconda官网中是这么宣传自己的:适用于企业级大数据分析的Python工具。其包含了720多个数据科学相关的开源包,在数据可视化、机器学习、深度学习等多方面都有涉及。不仅可以做数据分析,甚至可以用在大数据和人工智能领域。
3 Python强大的数据处理库
例如Numpy、Scipy、Pandas、Matplotlib
还有丰富的第三方库:
- web开发:
- django
- tornado
- flash
- 爬虫
- requests
- scrapy
- selenium
- 数据库
- pymongo
- pymysql
- 图形界面开发
- pyqt
- tkinter
- 科学计算框架
- numpy
- scipy
- pandas
- matplotlib
- 机器学习
- nltk
- tensorflow
- keras
- scikit-learn
4 如何管理Python包?
安装一个 package:
conda install package_name
这里 package_name 是需要安装包的名称。你也可以同时安装多个包,比如同时安装numpy 、scipy 和 pandas,则执行如下命令:
conda install numpy scipy pandas
你也可以指定安装的版本,比如安装 1.1 版本的 numpy :
conda install numpy=1.10
移除一个 package:
conda remove package_name
查看所有的 packages:
conda list
注:Python编辑器:Jupyter NoteBook (它直接在浏览器里面运行,是交互式的编程环境。支持Markdown语法有部分人也用VS vode编辑器,它也比较强大)
添加别名
以上两种安装方式任选其一即可完成安装,但如果我们之前安装过 Python2 的话,可能会导致版本冲突问题,比如在命令行下输入 python 就不知道是调用的 Python2 还是 Python3 了,为了解决这个问题,建议将安装目录中的 python.exe 复制一份,命名为 python3.exe,这样便可以调用 python3 命令了,实际上和 python 命令是完全一致的,这样可以更好地区分 Python 版本,当然如果没有安装过 Python2 的话也建议添加此别名,添加完毕之后如图 1-8 所示:
图 1-8 添加别名
对于 Pip 来说,安装包中自带了 pip3.exe 可执行文件,我们也可以直接使用 pip3 命令,无需额外配置。