Python本身的数据分析功能并不强,需要安装一些第三方的扩展库来增强它的能力。在Python培训课程用到的库包括NumPy、Pandas、Matplotlib、Seaborm、NLTK等,接下来将针对相关库做一个简单的介绍。
1.NumPy库
NumPy是Python开源的数值计算扩展工具,它提供了Python对多维数组的支持,能够支持高级的维度数组与矩阵运算。此外,针对数组运算也提供了大量的数学函数库。NumPy是大部分Python科学计算的基础,它具有以下功能:
(1)快速高效的多维数据对象ndarray。
(2)高性能科学计算和数据分析的基础包。
(3)多维数组(矩阵)具有矢量运算能力,快速且节省空间。
(4)矩阵运算。无需循环即可完成类似Matlab中的矢量运算。
(5)线性代数、随机数生成以及傅里叶变换功能。
2.Pandas库
Pandas是一个基于NumPy的数据分析包,它是为了解决数据分析任务而创建的。Pandas中纳入了大量库和标准的数据模型,提供了高效地操作大型数据集所需要的函数和方法,使用户能快速便捷地处理数据。
Pandas作为强大而高效的数据分析环境中的重要因素之一,具有以下特点:
(1)一个快速高效的DataFrame对象,具有默认和自定义的索引。
(2)用于在数据结构和不同文件格式中读取和写入数据,比如文本文件、Exeel文件及SQLite数据库。
(3)智能数据对齐和缺失数据的集成处理。
(4)基于标签切片和花式索引获取数据集的子集。<