Python用于数据科学三大顶级模块
- NumPy
NumPy(Numerical Python的缩写)是配备有用资源的顶级库之一,可帮助数据科学家将Python转变为强大的科学分析和建模工具。流行的开源库可以在BSD许可下使用。它是用于在科学计算中执行任务的基础Python库。NumPy是一个更大的基于Python的开源工具生态系统的一部分,称为SciPy。
他的库为Python提供了大量的数据结构,可以毫不费力地执行多维数组和矩阵计算。除了用于求解线性代数方程和其他数学计算外,NumPy还可用作不同类型通用数据的通用多维容器。
此外,它与其他编程语言(如C / C ++和Fortran)完美集成。NumPy库的多功能性使其能够轻松快速地与各种数据库和工具结合使用。
- Pandas
Pandas是另一个很棒的库,可以增强你的数据科学Python技能。与NumPy一样,它属于SciPy开源软件系列,可在BSD免费软件许可下使用。
Pandas提供多功能和强大的工具,用于整理数据结构和执行大量数据分析。该库适用于不完整,非结构化和无序的实际数据,并附带用于整形,聚合,分析和可视化数据集的工具。
此库中有三种类型的数据结构:
Series:单维,均匀阵列
DataFrame:具有异构类型列的二维
Panel:三维,大小可变阵列
3. Matplotlib
Matplotlib也是SciPy核心软件包的一部分,并在BSD许可下提供。它是一个流行的Python科学库,用于生成简单而强大的可视化。你可以使用Python框架进行数据科学生成创意图形,图表,直方图以及其他形状和图形,而无需担心编写多行代码。