python 中重要的库介绍

最新推荐文章于 2024-07-18 08:59:48 发布

相逢一醉为前缘

最新推荐文章于 2024-07-18 08:59:48 发布

阅读量759

点赞数

文章标签： python

本文链接：https://blog.csdn.net/taojiea1014/article/details/107325899

版权

文章目录

1.3.1 NumPy

NumPy（http://numpy.org）是Numerical Python的简写，是Python数值计算的基石。它提供多种数据结构、算法以及大部分涉及Python数值计算所需的接口。NumPy还包括其他内容：
· 快速、高效的多维数组对象ndarray
· 基于元素的数组计算或数组间数学操作函数
· 用于读写硬盘中基于数组的数据集的工具
· 线性代数操作、傅里叶变换以及随机数生成
· 成熟的C语言API，允许Python拓展和本地的C或C++代码访问NumPy的数据结构和计算设施。
除了NumPy赋予Python的快速数组处理能力之外，NumPy的另一个主要用途是在算法和库之间作为数据传递的数据容器。对于数值数据，NumPy数组能够比Python内建数据结构更为高效地存储和操作数据。此外，用底层语言编写的库，例如用C或Fortran编写的库，可以在NumPy数组存储的数据上直接操作，而无须将数据复制到其他内存中后再操作。因此，许多Python的数值计算工具将NumPy数组作为基础数据结构，或与NumPy进行无缝互操作。

1.3.2 pandas

pandas（http://pandas.pyda ta.org）提供了高级数据结构和函数，这些数据结构和函数的设计使得利用结构化、表格化数据的工作快速、简单、有表现力。它出现于2010年，帮助Python成为强大、高效的数据分析环境。在本书中主要使用的pandas对象是DataFrame，它是用于实现表格化、面向列、使用行列标签的数据结构；以及Series，一种一维标签数组对象。

pandas将表格和关系型数据库（例如SQL）的灵活数据操作能力与NumPy的高性能数组计算的理念相结合。它提供复杂的索引函数，使得数据的重组、切块、切片、聚合、子集选择更为简单。由于数据操作、预处理、清洗在数据分析中是重要的技能，pandas将是本书的重要主题。

使用R语言进行统计计算的用户对DataFrame的名称会非常熟悉，因为这个对象是根据相似的R data.frame对象进行命名的。与Python不同的是，数据框在R语言中是标准库中的内容。因此，pandas中的很多特征通常与R核心的实现或者R的附加库提供的功能一致。
pandas的名字的来源是panel data，这是计量经济学中针对多维结构化数据集的术语。pandas也是Python data analysis（Python数据分析）自身的简写短语。

1.3.3 matplotlib

matplotlib（http://matplotlib.org）是最流行的用于制图及其他二维数据可视化的Python库。它由John D. Hunter创建，目前由一个大型开发者团队维护。matplotlib被设计为适合出版的制图工具。对于Python编程者来说也有其他可视化库，但matplotlib依然使用最为广泛，并且与生态系统的其他库良好整合。我认为将它作为默认可视化工具是一个安全的选择。

1.3.4 IPython与Jupyter

IPython项目（http://ipython.org）开始于2001年，由Fernando Pérez发起，旨在开发一个更具交互性的Python解释器。在过去的16年中，它成为Python数据技术栈中最重要的工具之一。尽管它本身并不提供任何计算或数据分析工具，它的设计侧重于在交互计算和软件开发两方面将生产力最大化。它使用了一种执行-探索工作流来替代其他语言中典型的编辑-编译-运行工作流。它还提供针对操作系统命令行和文件系统的易用接口。由于数据分析编码工作包含大量的探索、试验、试错和遍历，IPython可以使你更快速地完成工作。
2014年，Fernando和IPython团队发布了Jupyter项目（http://jupyter.org）。Jupyter项目旨在设计一个适用于更多语言的交互式计算工具。IPython web notebook则成为Jupyter notebook，可以支持超过40种编程语言。IPython系统目前可以作为一个内核（一种编程语言模式）用于在Jupyter中使用Python。
IPython自身已成为Jupyter开源项目中的一个组件，后者提供交互性、探索性的高效环境。IPtyhon最古老、最简单的“模式”就是一个加强版的Python命令行，用于提高编写、测试、调试Python代码的速度。你也可以通过基于Web、支持多语言的代码“笔记本”——Jupyter Notebook来使用IPython系统。IPython命令行和Jupyter notebook对于数据探索和可视化非常有用。
Jupyter notebook系统允许你使用Markdown和HTML创建包含代码和文本的富文档。其他编程语言也针对Jupyter实现了内核，允许你在Jupyter中使用多种语言而不仅仅是Python。
对我个人来说，IPython涉及我工作的大部分内容，包括运行、调试、测试代码。
在随书资料（http://github.com/wesm/pydata-book）中，你可以找到包含本书所有章节示例代码的Jupyter notebook。

1.3.5 SciPy

SciPy（http://scipy.org）是科学计算领域针对不同标准问题域的包集合。以下是SciPy中包含的一些包：
scipy.integrate
数值积分例程和微分方程求解器
scipy.linalg
线性代数例程和基于numpy.linalg的矩阵分解
scipy.optimize
函数优化器（最小化器）和求根算法
scipy.signal
信号处理工具
scipy.sparse
稀疏矩阵与稀疏线性系统求解器
scipy.special
SPECFUN的包装器。SPECFUN是Fortran语言下实现通用数据函数的包，例如gamma函数。
scipy.stats
标准的连续和离散概率分布（密度函数、采样器、连续分布函数）、各类统计测试、各类描述性统计。
SciPy与NumPy一起为很多传统科学计算应用提供了一个合理、完整、成熟的计算基础。

1.3.6 scikit-learn

scikit-learn项目（http://scikit-learn.org）诞生于2010年，目前已成为Python编程者首选的机器学习工具包。仅仅七年，scikit-learn就拥有了全世界1500位代码贡献者。其中包含以下子模块。
· 分类：SVM、最近邻、随机森林、逻辑回归等
· 回归：Lasso、岭回归等
· 聚类：k-means、谱聚类等
· 降维：PCA、特征选择、矩阵分解等
· 模型选择：网格搜索、交叉验证、指标矩阵
· 预处理：特征提取、正态化
scikit-learn与pandas、statsmodels、IPython一起使Python成了高效的数据科学编程语言。本书中并不会提供详细的scikit-learn指引，但我会简要介绍scikit-learn中的一些模型以及如何与本书中出现的其他工具一起使用这些模型。