概要
官方文档传送门:https://pandas.pydata.org/pandas-docs/stable/install.html
本文通过如下几个方面介绍pandas的安装:
- python版本支持
- 安装pandas的几种常见方式
- 使用测试套件进行测试
- 依赖库
安装panda最简单的方法是将其安装为Anaconda发行版的一部分,Anaconda发行版是一个用于数据分析和科学计算的跨平台版本。这种方法推荐大多数用户使用。
此外,还提供了从源代码、PyPI、ActivePython、各种Linux发行版或开发版本安装的说明。
Python版本支持
正式版的python3.5.5及以上、python3.6、python3.7和python3.8。
安装pandas
文档中提供了6中安装方法:通过Anaconda安装,通过Miniconda安装,通过PyPi安装,通过ActivePython安装,通过所使用的Linux系统的包管理工具安装、通过源代码安装。
使用Anaconda安装pandas
对于没有经验的用户来说,安装pandas以及NumPy和SciPy堆栈的依赖库可能有点困难。通过安装anaconda,pandas包会被安装在默认环境(base)中。
anaconda同时也是安装Python和组成SciPy堆栈(IPython、NumPy、Matplotlib,……)的最简单的方法,它一个用于数据分析和科学计算的跨平台(Linux、Mac OS X、Windows) Python发行版。
运行anaconda的安装程序后,用户可以访问pandas和SciPy堆栈的其余部分,而不需要安装任何其他东西,也不需要等待编译任何软件。
安装方法非常简单:搜索anaconda的官网网址,然后找到符合自己开发需求的版本,下载安装即可。
关于anaconda和pycharm的结合使用,还可以参考这一篇博客:pycharm中使用anaconda管理项目环境。
通过Miniconda安装pandas
前一节概述了如何将pandas安装为Anaconda的一部分。但是,这种方法意味着我们将安装100多个包,并且需要下载几百兆字节大小的安装程序。
如果你希望对这些包的数量进行控制,或者所使用的internet带宽有限,那么使用Miniconda安装pandas可能是更好的解决方案。
Conda是构建Anaconda发行版的包管理器。这是一个跨平台且与语言无关的软件包管理器(它可以做到类似于pip与virtualenv组合的功能)。
Miniconda允许我们创建最小的包含Python的安装,然后使用Conda命令安装其他包。
首先,我们需要安装Conda, 下载和并运行Miniconda安装包将自动完成这一任务。安装程序可以在这里找到:传送门。
接下来创建一个新的conda环境。conda环境类似于virtualenv,它允许您指定特定版本的Python和一组库。从终端窗口运行以下命令:
conda create -n name_of_my_env python
这将创建一个最小的环境,其中只安装了Python。然后切入这个环境中:
source activate name_of_my_env
Windows系统中,则需要在终端运行如下命令:
activate name_of_my_env
最后一步是安装pandas。使用以下命令可以做到:
conda install pandas
如果想安装特定的版本,可以在后面跟上版本号:
conda install pandas=0.20.3
同样可以使用conda命令安装ipython包:
conda install ipython
使用如下命令可以安装完整的anaconda发行版:
conda install anaconda
由于anaconda是关于科学计算的发行版,所以支持的包数量上并没有pip命令那么强大,但是可以在环境中先安装上pip,然后使用pip安装所需的包,以web开发框架Django为例,可以使用如下命令进行安装:
conda install pip
pip install django
从PyPi安装pandas:
PyPi的全称是python package index,是最为强大的python安装包索引,我们可以在这里找到各种各样的python包,当然pandas也不在话下。PyPi所支持的命令就是我们最为熟悉的pip:
pip install pandas
以上三种是最为常用且简单的安装python包的方法,剩下的三种,由于我自己也没用过,就不在这瞎哔哔了。
运行测试套件
Pandas配备了详尽的单元测试集,覆盖了大约97%的代码。在机器上运行测试集,以确保一切正常工作。确保你电脑中的版本信息:pytest>=4.02,Hypothesis >= 3.58,之后运行:
import pandas
pandas.test()
依赖库
包 | 支持的最小版本 |
setuptools | 24.2.0 |
NumPy | 1.13.3 |
python-dateutil | 2.6.1 |
pytz | 2017.2 |
推荐的依赖库:
numexpr: 用来加速某些数值运算。numexpr使用多核以及智能分块和缓存来实现大的速度提升。安装版本必须在2.6.2以上。
bottleneck: 用于加速某些类型的nan评估。bottleneck使用专门的cython例程来实现大的速度提升。安装版本必须在1.2.1及以上。
注意:强烈建议您安装这些库,尤其是处理大规模数据时,因为它们可以提高计算速度。
可选的依赖库
pandas有许多只用于特定方法的依赖项,称为可选依赖项。例如,pandas.read_hdf()需要pytables包。如果没有安装可选依赖项,在调用需要该依赖项的方法时,panda将引发一个ImportError。
解析HTML的可选依赖项
要使用顶级的read_html()函数,需要下列库的组合之一:
3.BeautifulSoup4和html5lib和lxml
4.仅lxml。但是请参阅HTML Table Parsing,了解不应该采用这种方法的原因。
注意:
- 如果你安装了BeautifulSoup4,你必须安装lxml或者html5lib或者两者都安装。只安装BeautifulSoup4, 是不能让read_html()工作的。
- 强烈建议阅读HTML Table Parsing gotchas。它解释了与上述三个库的安装和使用相关的问题。